Gemini Robotics-ER 1.6: 로봇을 위한 추론 우선 모델
목차
개요
Google DeepMind가 2026년 4월 14일 Gemini Robotics-ER 1.6을 공개했다. 이번 버전은 로봇이 물리 환경을 더 정밀하게 이해하도록 설계된 추론 우선(reasoning-first) 모델이다. 시각·공간 이해, 작업 계획, 성공 감지를 핵심 축으로 삼으며, 이전 버전인 ER 1.5와 Gemini 3.0 Flash 대비 벤치마크 전반에서 성능 향상을 보였다.
배경
로봇 자율성의 핵심 병목은 “눈앞의 상황을 이해하고 판단하는” 추론 능력이다. 카메라 여러 대의 뷰를 통합해 작업 완료 여부를 스스로 판정하거나, 아날로그 게이지를 읽어 시설 상태를 확인하는 작업은 기존 비전 모델로는 어려웠다. ER 1.6은 이러한 현장 응용을 직접 겨냥해 설계됐다.
핵심 내용
포인팅과 공간 추론
ER 1.6은 객체 탐지와 계수, 관계 논리, 운동 추론, 제약 준수에서 정밀도를 크게 끌어올렸다. 점(point)을 복잡한 작업의 중간 단계로 활용할 수 있으며, 요청된 물체가 이미지에 존재하지 않을 때 이를 정확히 식별한다.
성공 감지
다중 카메라 뷰 전반에서 작업이 끝났는지를 모델이 직접 판정한다. 이 기능은 자율성의 엔진 역할을 하며, 동적이거나 일부 가려진 환경에서도 서로 다른 카메라 피드 간 관계를 이해하도록 개선됐다.
계기판 읽기
Boston Dynamics와 협업해 새로 도입된 능력이다. 아날로그 게이지, 압력 표시기, 디지털 판독값을 읽을 수 있다. 확대, 포인팅, 코드 실행, 세계 지식을 결합한 에이전틱 비전을 통해 93% 정확도를 달성했다. Boston Dynamics의 Marco da Silva는 “계기 읽기와 더 신뢰성 있는 작업 추론 같은 능력이 Spot이 실제 현장의 도전을 완전히 자율적으로 보고, 이해하고, 반응하게 만들 것”이라고 언급했다.
| 기능 | 지표 | 결과 |
|---|---|---|
| 계기판 읽기 | 에이전틱 비전 성공률 | 93% |
| 포인팅 | 이전 버전 대비 | 향상 |
| 다중 뷰 성공 감지 | 이전 버전 대비 | 향상 |
의미와 시사점
ER 1.6은 Gemini 안전 정책 준수 측면에서도 개선됐다. 적대적 공간 추론 과제에서 더 안정적으로 거부하며, 위험 물질 조작이나 허용 하중을 초과하는 물체를 다루지 않는 등 물리적 안전 제약을 더 잘 지킨다. 산업 응용 관점에서는 시설 점검 자동화가 가장 직접적인 수혜 영역이다. 로봇이 공장 전역의 계기를 순회하며 자율적으로 상태를 모니터링하는 시나리오가 현실화된다.
결론
Gemini Robotics-ER 1.6은 공간 추론과 성공 감지, 계기판 읽기라는 세 축에서 로봇 자율성의 실용적 진입 장벽을 낮춘다. 모델은 Gemini API, Google AI Studio, 개발자 Colab을 통해 제공되어 개발자가 바로 실험해볼 수 있다. 추론 우선 설계가 현장 점검과 협업 작업의 신뢰도를 어디까지 끌어올릴지 주목할 만하다.