[AI] NVIDIA RDMA는 무엇인가?

안녕하세요.

기가바이트 서버(GCT) 국내 공식 총판 제이씨현시스템(주) AI Server 솔루션 입니다.

금일은 NVIDIA의 #RDMA (Remote Direct Memory Access) 기술에 대해 포스팅을 해보도록 하겠습니다.

최근 AI,ML,DL 등 관련 기술들이 폭발적으로 증가하면서 AI 작업에 따른 고용량 데이터를 빠르게 전송시킬 필요성이 대두 되었습니다.

기존의 1G 또는 10G 네트워크 만으로는 클러스터화 되어 병렬 연결된 다수의 GPU 서버에서 생성된 데이터들을 처리 하기에는 대역폭과 속도에서 한계가 있는것이 사실 입니다.

기존의 전통적인 1G 또는 10G 네트워크 이후 100G 또는 200G, 400G 네트워크 기술도 현재 대중화가 되어 있는데, 이 초고속 네트워크의 중심에는 현재는 NVIDIA에 편입 된 #멜라녹스(Mellanox)를 빼 놓을 수 없습니다.

멜라녹스사는 이스라엘에서 설립된 회사로서 2020년에 엔비디아에 인수 합병 되어 현재는 멜라녹스라는 이름을 사용하지 않고, 초고속 네트워크 제품에 명칭을 NVIDIA ConnectX-6 , Connect-7 등의 명칭으로 다양한 제품들이 출시되어 있습니다.

NVIDIA의 RDMA 기술은 이 NVIDIA 초고속 네트워크 제품들에서 지원하는 기술 중의 하나라고 보시면 되며,

본 포스팅에서는 RDMA가 무엇인지에 대해 알아 보도록 하겠습니다.

GPU 서버 및 워스크테이션, GPU구매 문의는 하기로 언제든지 연락 부탁 드립니다.

제품 및 구매문의
제이씨현시스템(주) AI Server 솔루션 : server@jchyun.com / 02-2105-9295 / 02-6715-2161

NVIDIA의 RDMA기술은?

NVIDIA RDMA는 CPU와 OS 커널을 거치지 않고 GPU 메모리 간에 데이터를 직접 주고받는 기술입니다.

이는 NVIDIA의 GPUDirect RDMA 기술을 통해 구현되며, 고성능 컴퓨팅(HPC) 및 초거대 AI 모델 학습과 같이 서버 간 통신이 매우 중요한 환경에서 데이터 전송 지연 시간을 줄이고 CPU 사용량을 절약하는 데 사용됩니다.

RDMA의 기본 개념

일반적인 네트워크 방식에서는 데이터를 전송하려면 CPU가 메모리에서 데이터를 읽고, 네트워크 카드로 복사하는 방식을 사용 합니다.

복사한 데이터를 네트워크를 통해 데이터를 보내고, 수신 측에서도 CPU가 데이터를 NIC에서 메모리로 복사합니다.

이 과정에서 CPU, 커널, 복사 작업 등이 개입되어 지연(latency)과 CPU 오버헤드가 큰 현상이 발생합니다.

반면, RDMA는, CPU나 운영체제(OS) 커널의 개입 없이, 원격 시스템의 메모리에 직접 읽기(read) 또는 쓰기(write) 작업을 수행합니다. 다시 말해, 데이터가 직접 메모리에서 메모리로 이동하는 방식 입니다.

RDMA의 동작 방식

(1) 메모리 등록 (Memory Registration)

송신자와 수신자 모두 RDMA NIC(HCA: Host Channel Adapter)를 사용 합니다.
RDMA를 사용하기 위해서는 사용할 메모리 영역을 등록(pinning)해야 함. 이 과정에서 해당 메모리는 물리 메모리에 고정되고 커널이 RDMA NIC에 메모리 주소를 알려줍니다.

(2) Queue Pair 생성

RDMA 통신은 QP(Queue Pair)라는 구조를 통해 이루어 집니다.
QP는 Send Queue와 Receive Queue로 구성되어 있고, 이를 통해 명령을 주고 받습니다.

(3) 통신 방식

RDMA Write/Read는 zero-copy 방식이며, 데이터가 사용자 공간 메모리에서 사용자 공간 메모리로 직접 이동 합니다.

통신 방식	설명
RDMA Write	송신자가 수신자의 메모리에 데이터를 씀
RDMA Read	송신자가 수신자의 메모리에서 데이터를 읽음
Send/Receive	일반적인 메시지 송수신. 수신자는 명시적으로 Receive를 호출해야 함

RDMA의 주요 특징

낮은 지연 시간: CPU의 개입과 컨텍스트 스위칭을 최소화하여 데이터 전송 속도가 매우 빠릅니다.
높은 대역폭: 데이터 전송량이 많은 환경에서 효율적인 통신을 제공합니다.
낮은 CPU 사용률: CPU가 데이터 전송 작업을 직접 처리하지 않아 다른 연산에 집중할 수 있게 합니다.
하드웨어 기반 처리: RDMA는 네트워크 인터페이스 카드(NIC)와 같은 하드웨어의 도움을 받아 데이터를 직접 메모리로 읽고 쓰는 작업을 수행합니다.

RDMA를 사용 하려면?

RDMA 지원 네트워크 카드 (예: Mellanox ConnectX)
RDMA 지원 네트워크 (예: InfiniBand, RoCE(RDMA over Converged Ethernet))
RDMA를 지원하는 라이브러리 및 소프트웨어
- Verbs API, libibverbs
- MPI(MVAPICH, OpenMPI with UCX)
- NVIDIA NCCL (분산 학습 시 RDMA 지원)
- GDS (GPUDirect Storage와 연계 가능)

RDMA와 관련된 주요 기술

기술	설명
RoCE	RDMA를 이더넷에서 사용하게 해주는 기술 (L2 또는 L3)
InfiniBand	고성능 RDMA 전용 네트워크 프로토콜
GPUDirect RDMA	GPU 메모리 간 직접 통신 지원
GDS (GPUDirect Storage)	RDMA를 통해 스토리지에서 GPU로 직접 데이터 전송

RDMA가 AI 분산 학습에서 성능을 높이는 이유?

1) CPU 개입 없이 GPU 메모리 간 직접 통신 가능 (Zero-Copy)

RDMA는 CPU와 OS 커널을 거치지 않고, 한 노드의 GPU 메모리에서 다른 노드의 GPU 메모리로 직접 데이터 전송이 가능하게 합니다.
이를 NVIDIA GPUDirect RDMA라고 하며, 학습 시 자주 발생하는 all-reduce, broadcast, scatter 연산의 성능을 획기적으로 향상시킴.

2) 낮은 지연(Low Latency)

일반 TCP/IP 스택보다 수십~수백 배 낮은 지연을 제공함 (μs 수준).
이는 딥러닝 학습 시 step 간 통신 대기 시간을 줄이는 데 매우 효과적.

3) 높은 대역폭(High Throughput)

InfiniBand나 RoCE를 사용하는 RDMA는 100Gbps~400Gbps까지 지원 가능.
파라미터 싱크(sync)나 gradient all-reduce처럼 대량의 데이터를 빠르게 교환해야 하는 상황에서 필수적.

RDMA 지원 네트워크 카드 장착의 예

RDMA는 고성능 AI 분산 학습의 핵심 인프라 기술입니다.

특히, GPU 간 통신이 병목이 되는 LLM, ViT, MoE 계열 모델 학습에서 통신 지연을 획기적으로 줄여 전체 학습 시간을 단축시켜 주는 효과가 있습니다.

하기는 RDMA 기술이 지원되는 NVIDIA ConnectX-7 400G 네트워크 카드가 장착된 고성능 HGX 기반의 B200 GPU 서버의 모습 입니다.

NVIDIA ConnectX-7 400G 네트워크 카드 장착(빨간색 박스 안)

포스팅을 마치며...

이번 포스팅에서는 최신의 NVIDIA 네트워크 기술인 RDMA에 대해서 알아 보았습니다.

고성능 GPU 서버의 사용량이 늘어감에 따라 초고속 데이터 전송의 필요성이 점차 중요해 지는 시점에서 꼭 알고 있어야 하는 기술로 생각 됩니다.

NVIDIA에서 나온 기술인 만큼 경쟁사인 AMD에서도 대응이 되는 기술이 있는지 찾아보다 기회가 된다면 추가 컨텐츠로 찾아 뵙도록 하겠습니다.

이상 긴 포스팅을 읽어 주셔셔 감사 드립니다.

감사 합니다.

저희 제이씨현 에서는 ASUS , GIGABYTE, SUPERMICRO 등 다양한 밴더사들의 GPU 서버들을 취급하고 있으며, 전문적인 납품 설치 지원도 가능합니다.

서버 및 워크스테이션의 제품 및 구매 문의는 하기로 언제든지 연락 부탁 드립니다. ^^

제품 및 구매문의
제이씨현시스템(주) AI Server 솔루션 : server@jchyun.com / 02-2105-9295 / 02-6715-2161

저작자표시 비영리 변경금지 (새창열림)

'기술자료 > AL,ML,LLM,GPU' 카테고리의 다른 글

NVIDIA RTX PRO 6000 Blackwell 3형제 완전 정리 (0)	2025.11.26
[AI/DL/ML] NVIDIA RTX PRO 6000 Blackwell 과 L40S, RTX 6000 Ada의 비교 분석 (1)	2025.11.21

제이씨현시스템 AI Server 솔루션 - GIGABYTE 서버 공식총판