보스턴다이내믹스 (Boston Dynamics)와 도요타연구소 (TOYOTA Research Institute, TRI)는 ‘로봇 공학 및 인공 지능 연구의 큰 진전’, 즉 아틀라스 휴머노이드로봇 에 전원을 공급하는 대규모행동모델 (LBM)을 시연하는 세부 정보를 공개했다.
두 조직이 공동으로 공개한 비디오에서 Atlas는 물체 조작과 이동을 결합해야 하는 길고 연속적인 복잡한 작업을 수행한.
LBM을 채택함으로써 이전에는 힘들게 수작업으로 프로그래밍했던 새로운 기능을 이제 단 한 줄의 새 코드를 작성하지 않고도 신속하게 추가할 수 있다.
영상은 휴머노이드가 걷기, 웅크리기, 들어올리기 등 전신 동작을 통해 일련의 짐을 꾸리고, 분류하고, 정리하는 작업을 수행하는 모습을 보여준다.
시퀀스 전반에 걸쳐 연구원들은 상자 뚜껑을 닫고 바닥을 가로질러 미끄러지는 것과 같은 작업 중간에 예상치 못한 신체적 문제를 끼어들며, 이에 따라 Atlas가 스스로 조정해야 한다.
이전에 이 기능을 입증한 휴머노이드는 일반적으로 낮은 수준의 보행 및 균형 제어를 조작을 위한 팔 제어와 분리한다. 이 프로젝트에서는 단일 대형 행동 모델이 전체 로봇을 직접 제어하여 손과 발을 거의 동일하게 취급한다.
이러한 획기적인 발전은 2024년 10월 보스턴 다이내믹스와 TRI 간의 공동 연구 파트너십의 결과로, 스마트 로봇 개발을 가속화하기 위해 결합된 강점과 전문성을 활용하도록 설계됐다.
그 결과는 범용 휴머노이드 비서 개발에 있어 AI 기술의 놀라운 잠재력을 재확인했다.
Boston Dynamics의 로봇 연구 담당 부사장인 Scott Kuindersma는 다음과 같이 말한다. “이 연구는 우리가 생활하고 일하는 방식을 변화시킬 범용 로봇을 만드는 것에 대해 우리가 어떻게 생각하고 있는지 엿볼 수 있게 해줍니다. 많은 장거리 조작 작업을 수행하도록 단일 신경망을 훈련하면 더 나은 일반화가 가능하며, Atlas와 같은 고유능한 로봇은 전신 정밀도, 손재주 및 힘이 필요한 작업에 대한 데이터 수집에 가장 적은 장벽을 제시합니다.”
도요타 연구소의 대규모 행동 모델 담당 수석 부사장인 러스 테드레이크(Russ Tedrake)는 “휴머노이드의 주요 가치 제안 중 하나는 기존 환경에서 직접 매우 다양한 작업을 수행할 수 있다는 것이지만, 이러한 작업을 프로그래밍하는 이전 접근 방식으로는 이러한 문제를 해결하기 위해 확장할 수 없었습니다. 대규모 행동 모델은 근본적으로 새로운 방식으로 이 기회를 해결합니다 – 인간의 시연을 통해 기술이 빠르게 추가되고, LBM이 강해짐에 따라 점점 더 강력한 행동을 달성하기 위해 점점 더 적은 시연이 필요합니다”라고 말했다.
Scott Kuindersma와 Russ Tedrake가 공동 주도하는 이 프로젝트는 휴머노이드 로봇과 대규모 행동 모델에 대한 근본적인 질문에 답하기 위한 연구를 수행하고 있으며, 고급 조작 및 동적 행동을 포함하여 전신 제어를 위한 대규모 모델에 대한 현장의 이해를 높이고 있다.
LBM과 LLM
LLM은 대규모 언어 모델(Large Language Model)의 약자로, 인간과 유사한 언어를 이해하고 생성하기 위해 방대한 텍스트 데이터 세트에 대해 훈련된 AI 시스템이다. 예를 들면 ChatGPT(OpenAI), Claude(Anthropic), Gemini(Google DeepMind)가 있다.
LBM은 대규모 행동 모델(Large Behavior Model)의 약자로, 종종 로봇 공학을 위해 물리적 세계에서 행동과 의사 결정을 학습하도록 설계된 새로운 AI 클래스다. LBM은 단순히 단어를 예측하는 것이 아니라 행동을 예측하고 실행한다.
예를 들면 로봇 조작을 위한 Toyota Research Institute의 LBM, Field AI의 Field Foundation Models, 구현된 AI를 위한 Nvidia의 Isaac GR00T가 있다.