GoogleDeepMind ( 구글딥마인드 )는 Gemini 2.0 (제미니이점영 )기술을 기반으로 하는 두 가지 새로운 AI 모델을 도입하여 차세대에 유용한 로봇의 기반을 마련했다.
고급 VLA(Vision-Language-Action) 모델인 GeminiRobotics 는 Gemini 2.0을 기반으로 구축되었으며 로봇을 직접 제어하기 위한 새로운 출력 양식으로 물리적 액션을 추가했다. 고급 공간 이해 기능을 갖춘 Gemini 모델인 Gemini Robotics-ER을 통해 로봇 공학자는 Gemini의 ER(체화 추론) 능력을 사용하여 자체 프로그램을 실행할 수 있다. 두 모델 모두 다양한 로봇이 광범위한 실제 작업을 수행할 수 있도록 한다. 이러한 노력의 일환으로 Google DeepMind는 Apptronik과 파트너십을 맺고 Gemini 2.0으로 차세대 휴머노이드 로봇을 구축하고, Agile Robots, Agility Robots, Boston Dynamics 및 Enchanted Tools를 비롯한 신뢰할 수 있는 테스터와 협력하여 Gemini Robotics-ER의 미래를 안내하고 있다.
Gemini Robotics 비전-언어-행동 모델
구글 딥마인드(Google DeepMind)는 로봇공학을 위한 인공지능 모델이 사람들에게 유용하고 도움이 되기 위해서는 세 가지 주요 특성이 필요하다고 믿는다. 그들은 상호 작용해야 하며, 이는 지시 사항이나 환경의 변화를 신속하게 이해하고 대응할 수 있음을 의미한. 그리고 그들은 손재주가 있어야 하는데, 이는 물체를 조심스럽게 조작하는 것과 같이 사람들이 일반적으로 손과 손가락으로 할 수 있는 종류의 일을 할 수 있다는 것을 의미한다.
Gemini Robotics는 Gemini의 심층적인 세계 이해를 활용하여 사전 교육 없이 새로운 상황에 적응하고 광범위한 작업을 처리한다. 또한 익숙하지 않은 물체와 상호 작용하고, 다양한 지침을 따르고, 새로운 환경을 효과적으로 탐색하는 능력으로 인정받고 있다.
상호 작용
역동적인 물리적 세계에서 작동하려면 로봇이 사람 및 주변 환경과 원활하게 상호 작용하고 즉각적으로 변화에 적응할 수 있어야 한다. Gemini Robotics는 Gemini의 고급 언어 이해 기능을 활용하여 일상 대화 언어 및 다양한 언어로 표현된 명령을 이해하고 응답할 수 있습니다.
이전 모델에 비해 훨씬 더 광범위한 자연어 명령을 해석하고 응답할 수 있으며, 다양한 입력에 따라 동작을 조정할 수 있다. 또한 지속적으로 주변 환경을 관찰하고 환경 또는 지시 변화를 감지하며 그에 따라 행동을 수정한다.
정밀한 조작이 필요한 매우 복잡한 다단계 작업 처리
인간이 힘들이지 않고 수행하는 많은 일상 업무는 놀라울 정도로 섬세한 운동 기술을 필요로 하며 로봇에게는 여전히 너무 어렵다. Gemini Robotics는 정밀한 조작이 필요한 매우 복잡한 다단계 작업을 처리할 수 있다. 물체가 손에서 미끄러지거나 누군가 물건을 이리저리 옮기면 Gemini Robotics는 신속하게 계획을 수정하고 계속 진행하는데, 이는 로봇에게 중요한 능력이다.
다중 실시 형태
Gemini Robotics는 다양한 로봇 유형에 쉽게 적응할 수 있도록 설계되었다. 이 모델은 주로 양팔 로봇 플랫폼인 ALOHA 2의 데이터로 훈련되었지만, 이 회사는 양팔 플랫폼을 제어할 수 있다는 것도 입증했다. Gemini Robotics는 실제 작업을 완료하는 것을 목표로 Apptronik에서 개발한 휴머노이드 Apollo 로봇과 같은 보다 복잡한 구현에 특화될 수 있다.
Gemini Robotics-ER이라는 고급 시각 언어 모델 도입
이 회사는 또한 Gemini Robotics-ER(‘체화된 추론’의 줄임말)이라는 고급 시각 언어 모델을 도입했다. 이 모델은 특히 공간 추론에 중점을 두고 로봇 공학에 필요한 방식으로 세상에 대한 Gemini의 이해를 향상시키기 위한 것이며, 로봇 공학자가 이를 기존의 저수준 컨트롤러와 연결할 수 있도록 한다.
Gemini Robotics-ER은 포인팅 및 3D 감지와 같은 Gemini 2.0의 기존 기능을 크게 향상시킨다. 공간 추론과 Gemini의 코딩 능력을 결합한 Gemini Robotics-ER은 완전히 새로운 기능을 즉석에서 인스턴스화할 수 있다. 이 회사는 제미니 로보틱스-ER(Gemini Robotics-ER)이 인식, 상태 추정, 공간 이해, 계획 및 코드 생성을 포함하여 로봇을 제어하는 데 필요한 모든 단계를 즉시 수행할 수 있다고 주장한다. 이 엔드 투 엔드 설정에서 모델은 Gemini 2.0보다 2-3배 더 높은 성공률을 달성한다. 코드 생성만으로는 충분하지 않은 경우 Gemini Robotics-ER은 컨텍스트 내 학습을 활용하여 몇 가지 인간 시연에서 패턴을 식별하여 솔루션을 생성한다.
책임감 있게 AI와 로보틱스를 발전
로봇과 주변 사람들의 신체적 안전은 로봇 과학의 오랜 근본적인 관심사다. 그렇기 때문에 로봇 공학자들은 충돌 방지, 접촉력의 크기 제한, 모바일 로봇의 동적 안정성 보장과 같은 고전적인 안전 조치를 취한다. Gemini Robotics-ER은 각 구현체에 특정한 이러한 낮은 수준의 안전에 중요한 컨트롤러와 인터페이스할 수 있다. Gemini의 핵심 안전 기능을 확장한 Gemini Robotics-ER 모델은 주어진 행동이 특정 컨텍스트 내에서 안전한지 평가하고 그에 따라 적절한 반응을 생성할 수 있다.
학계와 산업계에서 로봇 안전 연구를 발전시키기 위해 회사는 구현된 AI 및 로봇 공학의 의미론적 안전을 평가하고 개선하는 것을 목표로 하는 새로운 데이터 세트를 출시하고 있다. 이전 연구에서 그들은 아이작 아시모프(Isaac Asimov)의 로봇 공학 3법칙(Three Laws of Robotics)에서 영감을 받은 로봇 헌법(Robot Constitution)이 대규모 언어 모델이 로봇을 위한 더 안전한 작업을 선택하도록 유도하는 데 어떻게 도움이 될 수 있는지 보여주었다. 이를 기반으로 그들은 로봇의 행동을 안내하기 위해 자연어로 직접 표현된 규칙인 데이터 기반 구성을 자동으로 생성하는 프레임워크를 개발했다. 이 프레임워크를 통해 사용자는 헌법을 생성, 수정 및 적용할 수 있으며, 이를 통해 더 안전하고 인간의 가치에 더 잘 부합하는 로봇의 개발을 촉진할 수 있다. 마지막으로, 새로운 ASIMOV 데이터 세트는 연구원들이 실제 시나리오에서 로봇 행동이 안전에 미치는 영향을 체계적으로 평가할 수 있도록 설계되었다.