(출처: Leo< /stock.adobe.com;)
대규모 서버 팜이 주를 이루던 기존의 데이터 센터는 생성형 인공 지능( #생성형AI) 의 등장으로 인해 지각 변동을 겪고 있다. AI의 요구 사항이 높아짐에 따라 기존의 서버 중심 모델은 빠르게 구식이 되어가고 있다. 이와 같은 변화는 단순히 하드웨어를 업그레이드하는 수준을 넘어 #데이터센터 의 구축 및 운영 방식을 재정의하고 있다. 이 글에서는 이와 같은 변화를 일으키고 있는 몇 가지 기술에 대해 살펴본다.
기존의 하드웨어를 뛰어넘는 기술
정교한 AI 모델이 자연어 처리(NLP), 이미지 생성 등의 분야에서 가능성의 경계를 확장하면서 데이터 센터 또한 한계를 넘어서고 있다.
예를 들어 ChatGPT의 전신인 GPT-3를 생각해보자. 무려 1,750억 개의 파라미터로 구성된 이 모델을 효율적으로 작동하려면 최소 2,048개의 GPU로 구성된 분산 시스템이 필요하다.[1] OpenAI는 GPT-4의 정확한 파라미터 수를 공개적으로 밝히지는 않았지만, 여러 가지 신뢰성 높은 출처와 전문가들의 추측에 따르면 대략 1조 7천억에서 1조 8천억 개의 매개변수로 작동하는 것으로 추정된다.[2] 이와 같은 복잡성의 급증은 그저 숫자 증가로만 볼 게 아니라 데이터 센터 아키텍처를 완전히 재고해야 한다는 경종이라 볼 수 있다.
연산 속도 또한 연산 용량만큼이나 중요할 수 있다는 점에 주목할 필요가 있다. 가상 현실 설정에서 시각적 콘텐츠를 생성하는 애플리케이션을 생각해 보자. 이 경우 눈의 피로도를 줄이려면 90fps의 프레임 속도가 필요하며, 이는 컴퓨팅 리소스가 90분의 1초 만에 콘텐츠를 생성할 수 있을 만큼 강력해야 함을 의미한다.[3] 이 같은 요구 사항은 최신 데이터 센터, 특히 실시간 처리에 의존하는 애플리케이션에서 저지연, 고처리량 시스템이 얼마나 중요한지를 알려준다.
이 같은 모든 새로운 수요를 고려하면 CPU 중심의 서버 팜의 시대는 끝나가고 있다는 점은 분명한 사실일 것이다. 이와 같은 기존의 방식이 수익 감소를 겪자 업계는 컴퓨팅, 메모리, 스토리지 리소스를 분리하는 이기종 아키텍처로 전환하고 있다. 이러한 변화는 생성형 AI 워크로드의 고유한 요구 사항에 맞춰 리소스를 보다 미묘하고 효율적으로 할당할 수 있게 해준다.
GPU 골드러시, 그리고 그 이후
고성능 컴퓨팅(HPC)은 생성형 AI 애플리케이션을 실행하는 데 있어 필수이다. HPC 아키텍처는 다양한 컴퓨팅 노드를 활용하여 복잡한 작업을 병렬로 처리할 수 있다.
그래픽 처리 장치(GPU)는 본질적으로 이 접근 방식에 적합하다. GPU는 병렬로 작동하는 수백에서 수천 개의 실행 장치를 포함하고 있으며 AI 워크로드를 능숙하게 처리할 수 있다. 그러나 암호화폐 채굴을 비롯한 다양한 분야에서 GPU에 대한 수요가 급증하면서 이는 데이터 센터 설계자에게 상당한 과제가 되었다.[6] 비용이 증가했으며, 부품 가용성이라는 문제가 생겼다.
부분적으로는 이와 같은 부족 사태로 인해 다른 여러 전문 처리 장치들이 더 큰 주목을 받고 있기도 하다.
필드 프로그래머블 게이트 어레이(FPGA): 높은 유연성을 자랑하는 이 칩은 지연 시간이 짧고 하드웨어 수준의 병렬 처리 기능을 제공하여 특정 데이터 중심 분석 작업에 있어 최대 100배 더 빠르다. FPGA는 AI 워크로드가 다양해지면서 기존 CPU가 효율적으로 처리할 수 없는 보다 전문적인 처리 기능이 필요해지면서 그 중요성이 점점 더 커지고 있다.
데이터 처리 장치(DPU): 암호화 및 데이터 압축과 같은 작업을 오프로드함으로써 DPU는 더 집중적인 워크로드를 위해 CPU와 GPU를 확보하여, 잠재적으로 전체 전력 소비를 줄일 수 있다. 특수 저전력 코어, 보조 프로세서 및 고속 인터페이스를 통해 DPU는 암호화, 데이터 압축 및 서비스 품질(QoS) 관리 작업을 처리할 수 있다. 이 같은 오프로딩은 성능을 최적화하고 전력 사용량을 줄여 데이터 센터의 총소유비용을 낮출 수 있다.
신경 처리 장치(NPU): 신경망의 구조와 기능에서 영감을 받은 NPU는 AI 및 머신 러닝 알고리즘을 가속화하고 최적화하도록 설계되었다. 이 장치는 이미지 인식 및 자연어 처리와 같은 작업에 탁월하여 생성형 AI 애플리케이션의 주축을 이룬다.
에너지 방정식
생성형 AI의 연산 수요는 또한 에너지 소비 증가로 이어진다. 평균적으로 ChatGPT 쿼리가 일반적인 구글 검색보다 10배 더 많은 에너지를 사용한다는 점을 고려하면, 2030년까지 데이터 센터에 대한 전력 수요는 생성형 AI로 인해 160% 급증할 것이라는 예측을 쉽게 이해할 수 있을 것이다. 이와 같은 급증은 성능과 지속 가능성의 균형은 물론, 운영 비용을 맞추려는 데이터 센터 운영자에게 상당한 과제를 제시할 것이다.
이와 같은 전력난을 완화하기 위한 한 가지 접근 방식은 특수 칩 간 통신 프로토콜을 개발하는 것이다. NVIDIA의 칩 간 직접 상호 연결 등과 같은 프로토콜은 집적 회로 간의 데이터 전송을 최적화하여 잠재적으로 에너지 소비를 줄인다.
맺음말
생성형 AI의 혁명은 단순히 알고리즘을 재구성하는 데 그치지 않고 디지털 세상을 주도하는 물리적 인프라를 근본적으로 바꾸고 있다. 향후 데이터 센터는 이와 같은 AI 모델의 전례 없는 수요를 충족하는 동시에 중요한 에너지 효율성과 지속 가능성 문제를 해결하기 위해 발전을 거듭해야 한다.
미래의 데이터 센터는 특수 처리 장치와 혁신적인 통신 프로토콜을 결합하여 활용하는 이기종 아키텍처의 경이로움을 보여줄 것이다. 이 같은 전환기를 성공적으로 주도하는 기업은 경쟁력을 갖춤과 동시에 차세대 디지털 인프라를 위한 표준을 정립할 수 있을 것이다.
이와 같은 변화의 기로에 서 있는 지금, 한 가지 분명한 것은 미래의 데이터 센터는 호스팅하는 AI 모델만큼 지능적이고, 적응력이 뛰어나며, 획기적인 컴퓨팅 성능과 효율성을 자랑하는 새로운 시대를 열어갈 것이라는 점이다.