Google DeepMind, 로봇을 위한 온디바이스 Gemini AI 모델 도입 - News

Gemini Robotics On-Device는 강력한 로봇 모델의 접근성과 적응성을 높이기 위한 것이다. 출처: Google DeepMind

구글딥마인드 (Google DeepMind)는 범용 민첩성과 빠른 작업 적응을 위한 온디바이스제미니로보틱스 (Gemini Robotics) 모델을 소개했다. 딥마인드(DeepMind)는 이 시각 언어 행동(VLA) 모델이 제미니 2.0의 다중 모드 추론과 현실 세계 이해를 실제 세계로 가져올 것이라고 말했다.

Gemini Robotics On-Device는 최소한의 컴퓨팅 리소스만 필요하도록 설계된 양팔 로봇을 위한 로보틱스 기반 모델이다. 이 모델은 로컬에서 최적화되고 데이터 네트워크와 독립적으로 작동하기 때문에 DeepMind는 대기 시간에 민감한 애플리케이션에 유용하다고 말했다. 또한 연결이 간헐적이거나 전혀 없는 환경에서 견고성을 보장할 수 있다.

딥마인드는 제미니 로보틱스 온디바이스(Gemini Robotics On-Device) 외에도 제미니 로보틱스 소프트웨어 개발 키트(SDK)를 소개했다. 개발자는 이를 사용하여 작업 및 환경에 대한 VLA 모델을 평가하고, DeepMind의 MuJoCo 물리 시뮬레이터에서 테스트하고, 50-100개의 데모를 통해 새로운 도메인에 빠르게 적용할 수 있다. 개발자는 DeepMind의 신뢰할 수 있는 테스터 프로그램에 가입하여 SDK에 액세스할 수 있다.

Gemini 2.0의 모멘텀을 기반으로 한 DeepMind

딥마인드(DeepMind)가 제미니 로보틱스(Gemini Robotics)를 도입한 지 불과 몇 달밖에 지나지 않았지만, 이미 작업 일반화와 민첩성 역량을 구축하고 있다. Google 사업부는 기기 내 모델이 다음과 같다고 말했다.

손재주가 있는 조작을 통한 빠른 실험을 위해 설계되었다.

성능 향상을 위한 미세 조정을 통해 새로운 작업에 적응 가능

짧은 대기 시간 추론으로 로컬에서 실행되도록 최적화됨

Gemini Robotics On-Device는 광범위한 테스트 시나리오에서 강력한 시각적, 의미론적, 행동적 일반화를 달성한다고 회사는 주장했다. 또한 이 플랫폼을 통해 로봇은 자연어 지시를 따르고 가방 지퍼를 열거나 옷을 접는 것과 같은 매우 민첩한 작업을 완료할 수 있다. 딥마인드(DeepMind)는 온디바이스(on-device)의 제한 없이 유사한 결과를 원하는 사람들을 위해 제미니 로보틱스(Gemini Robotics) 모델을 계속 제공할 예정이다.

이 시스템은 즉시 사용할 수 있는 작업에만 국한되지 않는다. 딥마인드(DeepMind)는 개발자들이 특정 애플리케이션에 대해 더 나은 성능을 달성하기 위해 모델을 조정할 수 있다고 말했다. 이 회사는 도시락 지퍼를 잠그고, 카드를 뽑고, 샐러드 드레싱을 붓는 등 다양한 난이도의 7가지 손재주 있는 조작 작업으로 모델을 테스트했다.

DeepMind, Gemini를 더 많은 로봇 구현으로 확장

DeepMind는 ALOHA 로봇만을 위해 온디바이스 모델을 훈련시켰지만, 이 모델을 Apptronik의 양팔 Franka FR3 로봇과 Apollo 휴머노이드 로봇에 추가로 적용할 수 있었다.

FR3 로봇에 대해 딥마인드는 AI 모델이 범용 명령어를 따랐다고 말했다. 이전에는 볼 수 없었던 물체와 장면을 처리하고, 드레스를 접는 것과 같은 손재주가 필요한 작업을 완료하거나, 정확성과 손재주가 필요한 산업용 벨트 조립 작업을 실행할 수 있었다.

Apollo 휴머노이드에서 DeepMind는 모델을 상당히 다른 구현에 적용했다. 동일한 제너럴리스트 모델은 자연어 명령을 따르고 이전에 볼 수 없었던 물체를 포함하여 다른 물체를 일반적인 방식으로 조작할 수 있다고 회사는 말했다.

딥마인드(DeepMind)는 AI 원칙에 따라 모든 모델을 개발하고 있으며, 의미론적 안전과 물리적 안전을 아우르는 총체적 안전 접근 방식을 적용하고 있다고 주장했다. 실제로 이는 Live API를 사용하여 의미론적 및 콘텐츠 안전성을 캡처하고 모델을 낮은 수준의 안전에 중요한 컨트롤러와 인터페이스하여 작업을 실행하는 것을 의미한다.

DeepMind는 다음과 같이 덧붙였다. ReDI(Responsible Development & Innovation) 팀은 모든 Gemini Robotics 모델이 실제로 미치는 영향을 지속적으로 분석하고 조언하여 사회적 영향을 극대화하고 위험을 최소화하는 방법을 찾고 있다. 그런 다음 RSC(Responsibility & Safety Council)에서 평가 내용을 검토하여 이점을 극대화하고 위험을 최소화하는 데 도움이 되는 피드백을 제공한다.

Gemini Robotics On-Device의 사용 및 안전 프로필을 더 깊이 이해하고 피드백을 수집하기 위해 회사는 처음에 신뢰할 수 있는 테스터 그룹을 선정하여 출시하고 있다.