카이스트(KAIST), 생성형 AI 추론 성능 60% 이상 높인 NPU 기술 개발 GPU 대비 전력 소모 44% 줄이고 성능 효율 개선
임승환 2025-07-04 11:45:36

NPU 하드웨어 아키텍처 소개 / 사진. 카이스트

 

카이스트(KAIST) 연구진이 생성형 AI 클라우드 운영의 병목 현상으로 꼽혀온 메모리 문제를 해결하고, GPU 대비 평균 60% 이상 추론 성능을 향상시키는 신경망처리장치(이하 NPU) 핵심 기술을 개발했다. 전력 소모는 44% 이상 낮추면서도 최신 생성형 AI 모델을 효율적으로 구동할 수 있어 차세대 AI 인프라 구축의 대안으로 주목된다.

 

카이스트는 7월 4일(금), 카이스트 전산학부 박종세 교수 연구팀이 카이스트 전기및전자공학부 김주영 교수의 창업 기업 하이퍼엑셀과 협력해, 생성형 AI 클라우드에 최적화된 고성능·저전력 NPU 기술을 개발했다고 밝혔다.

 

연구팀은 챗GPT, 제미니(Gemini) 등 초대규모 언어모델(LLM)이 사용하는 KV 캐시(Key-Value Cache)에 양자화(Quantization) 기법을 적용해 메모리 사용량을 크게 줄이면서도, 정확도 손실 없이 추론 성능을 향상시키는 알고리즘을 개발했다. 이후 이 알고리즘을 구현할 수 있는 전용 하드웨어 아키텍처를 설계해 NPU에 통합했다.

 

박종세 교수는 “생성형 AI 추론 경량화 알고리즘을 하이퍼엑셀과 공동으로 개발해, 메모리 병목 문제를 해결할 수 있는 하드웨어-소프트웨어 통합 설계에 성공했다”라며 “해당 기술을 통해 최신 GPU 대비 평균 60% 이상 성능을 향상시킨 동시에 전력 효율을 높여, 고성능·저전력 AI 인프라 구현 가능성을 입증했다”라고 설명했다.

 

특히 이번 기술은 기존 NPU 연산 구조를 변경하지 않고도 새로운 메모리 인터페이스에 통합될 수 있도록 설계됐으며, 페이지 단위 메모리 관리 기법과 양자화된 KV 캐시에 최적화된 인코딩 방식이 포함됐다. 이를 통해 고성능 생성형 AI 서비스를 위한 AI 인프라를 GPU보다 적은 디바이스로도 구성할 수 있게 됐다.

 

박종세 교수는 “이 기술은 AI 클라우드 데이터센터뿐 아니라, 능동 실행형 AI인 ‘에이전틱 AI’가 요구되는 차세대 전환 환경(AX)에서도 활용 가치가 높다”라며 “NPU 기반 AI 인프라가 운영 비용, 전력 효율성 측면에서 매우 유리하다는 점을 이번 연구를 통해 확인할 수 있었다”라고 강조했다.

 

이번 연구에는 카이스트 김민수 박사과정 학생과 하이퍼엑셀 홍성민 박사가 공동 제1저자로 참여했으며, 지난 6월 21일(토)부터 25일(수)까지 일본 도쿄에서 열린 ISCA 2025 학회에서 발표됐다.

디지털여기에 news@yeogie.com <저작권자 @ 여기에. 무단전재 - 재배포금지>