엔비디아, 핫칩스서 데이터센터와 에너지 효율 위한 혁신 발표 - News

엔비디아가 핫칩스서 데이터센터와 에너지 효율을 위한 혁신을 발표했다.

엔비디아(www.nvidia.co.kr)가 지난 8월 25일에서 27일까지(현지 시간) 미국 캘리포니아주 스탠포드 대학교에서 열린 핫칩스 2024(Hot Chips 2024)에서 엔비디아 블랙웰(NVIDIA Blackwell) 플랫폼을 지원하는 최신 발전 사항과 데이터센터용 액체 냉각 그리고 칩 설계용 AI 에이전트에 대한 연구를 발표했다.

프로세서와 시스템 설계자를 위한 업계와 학계의 심층 기술 콘퍼런스인 핫칩스는 수조 달러 규모의 데이터센터 컴퓨팅 시장의 핵심 포럼으로 자리 잡았다.

엔비디아가 발표한 내용은 다음과 같다.

• 엔비디아 블랙웰이 여러 칩, 시스템 그리고 엔비디아 쿠다(CUDA) 소프트웨어를 결합해 여러 사용 사례, 산업, 국가 전반에 걸쳐 차세대 AI를 지원하는 법

•72개의 블랙웰 GPU와 36개의 그레이스(Grace) CPU를 연결하는 멀티 노드, 수냉식, 랙 스케일 솔루션인 엔비디아 GB200 NVL72가 AI 시스템 설계의 기준을 높이는 방법

•NV링크(NVLink) 인터커넥트 기술이 올투올(all-to-all) GPU 통신을 제공해 생성형 AI를 위한 기록적으로 높은 처리량과 짧은 지연 시간의 추론을 구현하는 방법

•엔비디아 퀘이사 양자화 시스템(Quasar Quantization System)이 물리학의 한계를 뛰어넘어 AI 컴퓨팅을 가속화하는 방법

•엔비디아 연구원들이 AI용 프로세서를 구축하는 데 도움이 되는 AI 모델을 구축하는 법

8월 26일에 열린 엔비디아 블랙웰 강연에서는 새로운 아키텍처 세부 사항과 블랙웰 실리콘에서 실행되는 생성형 AI 모델의 사례도 집중 조명했다.

앞선 8월 25일에는 세 가지 튜토리얼을 진행했다. 여기서는 하이브리드 액체 냉각 솔루션이 데이터센터가 에너지 효율적인 인프라로 전환하는 데 어떻게 도움이 되는지, 거대 언어 모델(Large Language Model, LLM) 기반 에이전트를 포함한 AI 모델이 엔지니어가 차세대 프로세서를 설계하는 데 어떻게 도움이 될 수 있는지를 다뤘다.

이 발표에서는 데이터센터 컴퓨팅과 설계의 모든 영역에서 엔비디아 엔지니어들이 전례 없는 성능, 효율성, 그리고 최적화를 제공하기 위해 혁신하고 있는 방법을 소개했다.

블랙웰을 위한 준비

엔비디아 블랙웰은 궁극의 풀스택 컴퓨팅 도전 과제다. 이는 블랙웰 GPU, 그레이스 CPU, 블루필드(BlueField) 데이터 처리 장치, 커넥트X(ConnectX) 네트워크 인터페이스 카드, NV링크 스위치(Switch), 스펙트럼 이더넷(Spectrum Ethernet) 스위치, 퀀텀 인피니밴드(Quantum InfiniBand) 스위치 등 여러 엔비디아 칩으로 구성된다.

엔비디아의 아키텍처 담당 이사인 아제이 티루말라(Ajay Tirumala)와 레이몬드 웡(Raymond Wong)이 이 플랫폼을 소개했다. 곧이어 이러한 기술들이 어떻게 함께 작동해 에너지 효율성을 향상시키고 AI와 가속화된 컴퓨팅 성능의 새로운 표준을 제공하는지 소개했다.

멀티 노드 엔비디아 GB200 NVL72 솔루션이 바로 완벽한 예시다.. LLM 추론에는 지연 시간이 짧고 처리량이 높은 토큰 생성이 필요하다. GB200 NVL72는 LLM 워크로드에 최대 30배 빠른 추론을 제공하는 통합 시스템으로 작동해 수조 개의 파라미터 모델을 실시간으로 실행할 수 있는 기능을 제공한다.

또한 티루말라와 웡은 알고리즘 혁신, 엔비디아 소프트웨어 라이브러리와 도구, 블랙웰의 2세대 트랜스포머 엔진을 결합한 엔비디아 퀘이사 양자화 시스템이 어떻게 저정밀도 모델에서 높은 정확도를 지원하는지 논의했다. 아울러 LLM과 시각 생성형 AI를 사용한 사례를 중점적으로 소개했다.

데이터센터의 냉각 유지

연구자들은 공냉식과 액체 냉각을 결합한 하이브리드 냉각을 사용하는 보다 효율적이고 지속 가능한 솔루션을 개발했다. 이에 따라 기존의 공냉식 데이터센터의 윙윙거리는 소음이 해결될 수 있다.

액체 냉각 기술은 공기보다 시스템에서 열을 더 효율적으로 이동시켜 대규모 워크로드를 처리하는 동안에도 컴퓨팅 시스템의 냉각 상태를 쉽게 유지할 수 있다. 또한 액체 냉각용 장비는 공냉식 냉각 시스템보다 공간을 덜 차지하고 전력을 덜 소비하므로 시설 내에 더 많은 서버 랙을 추가해 데이터센터의 컴퓨팅 성능을 높일 수 있다.

엔비디아 데이터센터 냉각과 인프라 담당 이사인 알리 헤이다리(Ali Heydari)는 하이브리드 냉각 데이터센터를 위한 몇 가지 설계를 소개했다.

그중 일부는 기존 공냉식 데이터센터에 액체 냉각 장치를 장착해 기존 랙에 액체 냉각 기능을 빠르고 쉽게 추가할 수 있는 솔루션을 제공한다. 또 다른 설계에서는 냉각 분배 장치를 사용하거나 침수 냉각 탱크에 서버를 완전히 담그는 방식으로 직접 칩 액체 냉각을 위한 배관을 설치해야 한다. 이러한 옵션은 초기 투자 비용이 더 많이 들지만 에너지 소비와 운영 비용을 크게 절감할 수 있다.

알리 헤이다리 이사는 첨단 데이터센터 냉각 기술을 개발하는 미국 에너지부 프로그램인 쿨러칩스(COOLERCHIPS)의 일환으로 엔비디아 팀이 수행한 작업을 공유했다. 이 프로젝트에서 연구 팀은 엔비디아 옴니버스(Omniverse) 플랫폼을 사용하고 있다. 이는 데이터센터 설계 최적화를 위한 에너지 소비와 냉각 효율 모델링에 도움이 되는 물리 정보 기반 디지털 트윈 생성을 지원한다.

프로세서 설계를 위한 AI 에이전트

반도체 설계는 미시적 규모의 거대한 도전이다. 최첨단 프로세서를 개발하는 엔지니어들은 몇 인치 남짓한 실리콘 조각에 최대한 많은 컴퓨팅 성능을 탑재하기 위해 물리적으로 가능한 한계를 시험하며 작업한다.

AI 모델은 설계 품질과 생산성을 개선하고 수작업 프로세스의 효율성을 높이며 시간이 많이 걸리는 일부 작업을 자동화함으로써 이들의 작업을 지원하고 있다. 이러한 모델에는 엔지니어가 설계를 빠르게 분석하고 개선하는 데 도움이 되는 예측, 최적화 도구와 질문에 대한 답변, 코드 생성, 설계 문제 디버깅 등을 지원하는 LLM이 포함된다.

엔비디아 설계 자동화 연구 담당 이사인 마크 렌(Mark Ren)은 튜토리얼을 통해 이러한 모델과 그 사용법에 대한 개요를 소개했다. 두 번째 세션에서는 칩 설계를 위한 에이전트 기반 AI 시스템을 집중적으로 설명했다.

LLM으로 구동되는 AI 에이전트는 자율적으로 작업을 완료하도록 지시할 수 있어 산업 전반에 걸쳐 광범위한 애플리케이션을 활용할 수 있다. 마이크로프로세서 설계 분야에서 엔비디아 연구원들은 에이전트 기반 시스템을 개발하고 있다. 이는 맞춤형 회로 설계 도구를 사용해 추론하고 조치를 취할 수 있고, 숙련된 설계자와 상호 작용하며 인간과 에이전트 경험의 데이터베이스로부터 학습할 수 있다.

엔비디아 전문가들은 이 기술을 단순히 구축하는 데 그치지 않고 활용하고 있다. 마크 렌 이사는 엔지니어가 타이밍 보고서 분석과 셀 클러스터 최적화 프로세스, 코드 생성 등에 AI 에이전트를 사용하는 방법에 대한 사례를 공유했다. 셀 클러스터 최적화 작업은 최근 제1회 IEEE LAD 국제 워크숍(IEEE International Workshop on LLM-Aided Design)에서 최우수 논문상을 수상했다.