AI가 물리적 세계에 영향을 미칠 수 있는지 직접 실험해 보았다
Claude 같은 프론티어 AI 모델이 컴퓨터를 넘어 물리적 세계에 영향을 미칠 수 있는 방법은 무엇일까요? 그중 하나가 바로 로봇입니다. Anthropic 직원들이 로봇 개를 활용해 복잡한 과제를 수행할 때 Claude가 얼마나 도움이 되는지 알아보기 위한 실험을 진행했습니다.
창고 안 테이블에 둘러앉아 작동하지 않는 코드가 띄워진 컴퓨터 화면을 들여다보던 자원 연구원들. 늘 의지하던 AI 어시스턴트 Claude도 쓸 수 없는 상황에서, 네발 달린 로봇의 습격까지 예상하지는 못했을 것입니다.
기계적 윙윙거림과 고무 발바닥 소리가 점점 커지자, 연구원들은 화들짝 놀랐습니다. 그들은 자신들의 컴퓨터와 네발 보행 로봇, 이른바 '로봇 개(robodog)'를 연결하려 애쓰고 있었지만 번번이 실패하는 중이었습니다. 한편 방 건너편의 경쟁 팀은 이미 연결을 마치고, Claude가 대부분 작성한 프로그램으로 로봇을 제어하고 있었습니다. 그런데 너무나 인간적인 산술 실수가 벌어졌습니다. Team Claude가 로봇에게 초속 1미터로 5초간 전진하라고 명령한 것입니다—5미터도 채 안 되는 곳에 상대 팀 테이블이 있다는 사실을 깜빡한 채로.
로봇은 명령에 충실히 따라 불운한 코더들을 향해 돌진했습니다. 행사 진행자가 재빨리 로봇을 붙잡고 전원을 끄면서 로봇, 테이블, 사람 다리 어디에도 피해는 없었습니다. 하지만 졸지에 공격 대상이 된 팀의 사기만큼은 무사하지 못했습니다.
이쯤 되면 궁금하실 겁니다…
AI의 영향에 대해 자주 제기되는 질문 중 하나는, AI가 물리적 세계와 얼마나 잘 상호작용할 수 있느냐입니다. AI 에이전트 시대에 접어들면서 AI가 단순히 정보를 제공하는 것을 넘어 행동을 취하기 시작했지만, 이러한 행동은 여전히 코드 작성이나 소프트웨어 조작 같은 디지털 영역에 머물러 있습니다. 이전에 Project Vend에서 Anthropic 사무실 안에 소규모 매점을 Claude로 운영하며 디지털-물리적 세계의 간극을 제한적으로나마 탐색해 본 적이 있습니다.
그 실험에서는 AI와 현실 세계의 상호작용이 사람의 노동을 통해 중개되었습니다. 이번 로봇 개 실험에서는 자연스러운 다음 단계로서, 사람 대신 로봇을 활용해 새로운 과제에 도전했습니다.
AI 모델의 역량을 이해하고 추적하는 방법 중 하나가 '역량 증폭(uplift)' 연구입니다. 참가자를 AI 접근 가능 그룹과 불가능 그룹으로 무작위 배정한 뒤, 과제 수행 능력의 차이를 측정하는 방식입니다(이 방법론은 AI와 생물학적 위험 관련 연구에서도 광범위하게 활용해 왔습니다). 두 그룹 간의 차이가 곧 '역량 증폭'—즉 AI가 제공하는 이점(이 있다면)—입니다. 역량 증폭을 측정하면 현재 AI가 인간의 능력을 얼마나 향상시킬 수 있는지 파악할 수 있고, 향후 AI가 독자적으로 과제를 수행할 수 있을 영역을 가늠하는 데도 도움이 됩니다.
실험을 위해 로봇 관련 경험이 거의 없는 Anthropic 연구원 및 엔지니어 8명을 모집했습니다.1 무작위로 4명씩 "Team Claude"와 "Team Claude-less"로 나눈 뒤, 난이도가 점차 높아지는 세 단계에 걸쳐 네발 보행 로봇을 조작하도록 했습니다. 모든 단계에서 평가 기준이 되는 핵심 과제는 단순했습니다: 로봇 개가 비치볼을 가져오게 하는 것.

로봇의 공 가져오기가 경제적으로 큰 가치를 지녀 향후 Anthropic Economic Index의 과제 목록에 오르리라 기대하는 것은 아닙니다. 그렇다면 왜 이 실험을 했을까요?
첫째, 기존 연구의 연장선에 있기 때문입니다. Claude의 AI R&D 기여도를 평가하는 데 사용하는 평가 항목 중 하나가, 네발 보행 로봇 제어에 쓰일 수 있는 머신러닝 모델을 훈련시키는 능력 테스트입니다. 이전에 시뮬레이션으로 결과 알고리즘을 평가해 본 결과, Claude가 이 과제를 완전히 자율적으로 처리할 수 있는 단계에는 아직 이르지 못했음을 확인했습니다.2 따라서 AI와 사람의 협력을 결합한 실험에 적합한 과제였습니다. 또한 모델이 로보틱스 분야에서 개선할 여지가 아직 크기 때문에, 향후 반복 실험의 가치도 충분하다고 판단했습니다.
두 번째 이유는 현실적인 것이었습니다. 동료들을 하루 이상 업무에서 빼내기 어려워, 하루를 채울 만큼 충분히 어렵되 팀이 거의 진전을 보이지 못해 역량 증폭을 감지조차 할 수 없을 정도로 어렵지는 않은 과제가 필요했습니다. 비치볼 회수, 특히 상위 난이도 변형이 이 조건에 딱 맞았습니다.
1단계에서는 제조사 제공 컨트롤러를 사용해 로봇 개가 인조 잔디 위로 공을 가져오도록 해야 했습니다. 순전히 하드웨어에 익숙해지기 위한 단계였기에, 여기서 역량 증폭이 나타나리라고는 예상하지 않았습니다.3
2단계에서는 컨트롤러를 내려놓아야 했습니다. 자신의 노트북을 로봇 개에 직접 연결하고, 탑재 센서(비디오 및 라이다)의 데이터를 수신하고, 로봇을 움직이는 소프트웨어를 자체 개발한 뒤, 이를 활용해 공을 회수해야 했습니다. Claude가 본격적으로 차이를 만들기 시작할 것으로 예상한 단계였습니다.
3단계는 한층 더 어려웠습니다. 로봇 개가 자율적으로—즉 사람의 조종 없이 스스로 공을 감지하고 가져오는 프로그램을 개발해야 했습니다. 역시 Claude가 도움이 될 것이라 예상했습니다.
종합적으로 Team Claude가 더 많은 과제를 완료했으며 평균 소요 시간도 더 짧았습니다. 두 팀 모두 완료한 과제에 한정하면, Team Claude는 Team Claude-less의 약 절반 시간 만에 성공했습니다(그림 1 참조). 즉, 이번 로보틱스 과제에서 AI는 상당한 수준의 역량 증폭을 제공한 셈입니다.

세 단계별로 과제를 나누어 살펴보면, Claude가 어디서 가장 큰 이점을 발휘했는지 알 수 있습니다.

Claude가 가장 두드러진 우위를 보인 부분은 로봇 및 탑재 센서 연결이었습니다. 노트북으로 로봇 개에 접속하고, 데이터를 수신하고, 명령을 전송하는 과정입니다. 이 특정 로봇에 연결하는 방법은 여러 가지가 있고, 온라인에는 정확도가 들쭉날쭉한 정보가 넘쳐났습니다. Claude가 있는 팀은 이런 다양한 접근법을 훨씬 효율적으로 탐색할 수 있었습니다.
Team Claude는 온라인의 부정확한 정보에 속지 않았습니다. 하지만 Team Claude-less는 잘못된 정보에 휘둘려 가장 쉬운 연결 방법을 성급하게 폐기하고 말았습니다. 한참을 허탕 치는 모습을 지켜보다 안타까운 마음에 힌트를 제공했습니다.
로봇 개가 주변 환경을 시각화하는 데 쓰는 센서인 라이다(lidar)에서 유용한 데이터를 얻는 것도 Team Claude-less에게는 훨씬 어려운 일이었습니다. 그들은 비디오 카메라 연결을 활용해 3단계로 넘어갔지만, 팀원 한 명을 라이다 접근 과제에 계속 투입했고 겨우 하루가 끝나갈 무렵에야 성공했습니다.
이를 통해 알 수 있는 것은, 코드로 물리적 세계에 영향을 미치고자 할 때 하드웨어에 연결하고 이해하는 기본적인 작업 자체가 사람이든 AI든 누구에게나 놀라울 만큼 어렵다는 점입니다. 아래에서 더 자세히 논의하겠지만, 이 영역에서 Claude의 우위는 지속적으로 추적해야 할 중요한 지표입니다.
Team Claude는 실험을 거의 완료하는 수준까지 도달했습니다. 하루가 끝날 무렵, 그들의 로봇 개는 자율적으로 비치볼을 찾아내고 볼을 향해 이동하며 굴릴 수 있었습니다. 다만 자율 제어의 정밀도가 공을 완벽하게 회수하기에는 아직 살짝 부족했습니다.
흥미롭게도, 일부 세부 과제는 Team Claude-less가 더 빨리 완료했습니다. 비디오 피드 연결을 확보한 뒤에는 제어 프로그램 작성이 더 빨랐고, 로봇의 '위치 추정(localization)'—즉 이전 위치 대비 현재 위치를 파악하는 방법 구현—도 더 신속하게 마쳤습니다.
다만 소요 시간만으로는 드러나지 않는 흥미로운 사실이 있습니다. Team Claude가 작성한 컨트롤러는 시간이 더 걸렸지만, 로봇 개 시점의 실시간 스트리밍 영상을 제공해 사용성이 훨씬 뛰어났습니다. Team Claude-less는 간헐적으로 전송되는 정지 이미지에 의존해야 했기에 조작이 상당히 불편했습니다. 하지만 Team Claude의 향상된 역량이 이해도를 희생한 결과일 수도 있습니다. 양쪽 팀 참가자 모두 실험 후 소프트웨어 라이브러리에 대한 퀴즈를 치르면 Team Claude-less가 더 잘할 거라고 추측했습니다.
위치 추정 알고리즘도 흥미로운 사례입니다. 이 세부 과제에서 Team Claude는 팀원들이 여러 접근법을 병렬로 시도했습니다. Team Claude-less가 위치 추정을 완료하는 데 걸린 것과 비슷한 시간 안에, Team Claude도 문제를 거의 풀었습니다—좌표축이 뒤집혀 있다는 점만 빼면. 그런데 좌표를 단순히 뒤집는 대신, 다른 팀원의 전혀 다른 접근법으로 전환했다가(실패) 다시 원래 솔루션으로 돌아와 버그를 수정했습니다.
이는 실험 중 관찰된 흥미로운 현상의 일부입니다. Team Claude는 코드를 훨씬 더 많이 작성했지만(그림 2 참조), 그중 일부는 당면 과제에서 벗어난 것이었다고 볼 수 있습니다.

AI 어시스턴트의 도움이 있으면 다양한 접근법을 병렬로 시도하고 더 나은 프로그램을 작성하기 쉽지만, 동시에 곁가지 탐색에 빠지기도 쉬워집니다. 경쟁 상황이 아니라면 이런 탐색이 오히려 혁신으로 이어질 수도 있습니다. 하지만 주목할 만한 역학임은 분명합니다.
실험을 관찰하는 입장에서 두 팀의 '분위기'는 확연히 달랐습니다. 한마디로, Team Claude가 Team Claude-less보다 훨씬 즐거워 보였습니다.
이해할 만한 일이었습니다. Team Claude-less는 상대 팀 로봇 개에 돌진당할 뻔했고, 점심 시간까지 자기 로봇 개에 연결조차 못했으니까요. Team Claude의 사기는 대체로 안정적이었지만, 하루가 끝나갈 무렵 많은 진전에도 불구하고 3단계를 완료하기엔 시간이 부족하다는 것이 명백해지자 좌절감을 드러냈습니다.
정성적인 분위기 관찰을 보완하기 위해, Claude를 활용해 각 팀의 오디오 녹취록을 분석했습니다(모든 팀원은 이 실험에 대한 영상 촬영의 일환으로 녹음에 동의했습니다). Claude가 심리학 문헌의 표준 방법론과 유사한 사전 기반 텍스트 분석 프로그램을 작성했습니다.4 이를 통해 각 팀이 사용한 단어 중 긍정·부정 감정(또는 혼란)을 나타내는 단어의 비율을 추적하고, 질문 빈도를 추정할 수 있었습니다.
정량 분석 결과는 대체로 관찰 내용과 일치했습니다(그림 3 참조). 실험 전반에 걸쳐 Team Claude-less의 대화에 부정적 표현이 더 많았습니다. 다만 3단계를 완료하지 못한 Team Claude의 실망감과, 일부 과제를 성공시킨 Team Claude-less의 흥분이 겹치면서, 두 팀 간 순감정 표현(긍정 단어 - 부정 단어) 차이는 통계적으로 유의미하지 않았습니다.

Team Claude-less의 혼란 표현 빈도는 Team Claude의 두 배에 달했습니다(그림 4 참조). 실험 도중과 종료 후 Team Claude-less 구성원들에게 확인해봐도 좌절감과 혼란이 역력했습니다. Anthropic 직원인 참가자 전원이 매일 Claude를 사용하다 보니, Team Claude-less 전원이 Claude를 쓸 수 없는 것이 얼마나 이상하게 느껴졌는지 토로했습니다. 일부는 이번 경험을 통해 자신의 코딩 실력이 예전만 못하다고 느꼈다고 구체적으로 언급하기도 했습니다. Claude Code가 출시된 지 불과 6개월 만의 실험이었다는 점을 감안하면, Team Claude-less와의 대화는 최근까지 놀라운 것이었던 것을 얼마나 빠르게 당연하게 받아들이는지를 새삼 실감하게 해주었습니다.

두 팀의 작업 방식도 달랐습니다. 초기 논의 이후, Team Claude 구성원들은 각자 자신의 AI 어시스턴트와 짝을 이루어 병렬적으로 목표를 추진하는 경향을 보였습니다. Team Claude-less는 더 깊이 있게 전략을 세우고 서로 더 자주 상의했습니다. 텍스트 분석 역시 이런 관찰을 뒷받침합니다: Team Claude-less의 질문 횟수가 Team Claude보다 44% 더 많았습니다(그림 4 참조).
한 가지 해석은, Team Claude-less 구성원들이 서로 더 깊이 교류하고 연결되어 있었다는 것입니다. 이는 곧 공개할 Anthropic 직원 인터뷰 결과와도 맥을 같이합니다.
물론 상황이 달라질 수도 있었습니다. 사실상 4인으로 구성된 Team Claude는 각자 AI 모델 인스턴스를 사용했으니 8에이전트 팀이나 다름없었습니다. 만약 Claude가 과제의 성격을 더 잘 파악했다면 전략적 역할 분담이나 필요시 소통 촉진까지 도울 수 있었을 것입니다. 현재 Claude는 한 사람과의 파트너십에 초점이 맞춰져 있지 팀 전체의 지원이나 조율에는 최적화되어 있지 않지만, 이는 궁극적으로 변경 가능한 설계 선택입니다.
하루 종일 스톱워치로 세부 과제 시간을 재고 녹취록 분석을 준비한 것만은 아닙니다. 즐거운 순간도 많았습니다.
로봇 개에는 사전 프로그래밍된 동작들이 내장되어 있었고, 참가자들이 이를 발견해냈습니다. 하루 중 곳곳에서 로봇이 춤을 추거나, 뒷다리로 서거나, 백플립을 하는 장면이 펼쳐졌습니다(백플립에는 많은 참관인이 깜짝 놀랐습니다). 특히 Team Claude-less는 마침내 연결에 성공한 뒤 로봇 개의 곡예를 즐기며 한때의 스트레스를 풀었습니다.
Team Claude의 곁가지 탐색 중에는 대체 컨트롤러 개발 시도도 있었습니다. 메인 솔루션은 노트북 키보드 버튼으로 로봇 개를 조종하는 방식이었는데, Team Claude의 한 팀원이 자연어 컨트롤러를 구현하는 데 성공했습니다. 덕분에 "앞으로 걸어", "뒤로 걸어", 심지어 "푸시업 해" 같은 명령을 직접 말로 내릴 수 있게 되었습니다.
과제 난이도가 올라갈수록, AI 시스템이 실제 세계에서 매끄럽게 다듬어야 할 거친 모서리들이 드러났습니다. 예를 들어, Team Claude에는 (임의로) 로봇 개 장식과 비치볼 색상 모두 초록색이 배정되었습니다. 공 감지 알고리즘을 개발할 때 Team Claude는 초록색 공을 특정해서 인식하도록 훈련시켰습니다. 테스트에서는 잘 작동했지만, 앞서 언급한 인조 잔디(초록색) 위에 공을 놓자 로봇이 당황하고 말았습니다. 이 경우에는 사람이 목표 명세의 수준에 대해 차선의 선택을 한 것이지만, 유사한 상황에 놓인 AI라면 정확히 같은 문제에 부딪힐 것입니다.
Project Fetch에서 많은 것을 배웠지만, 이 연구에는 분명한 단점과 한계가 있습니다. 두 팀으로 진행한 단 한 번의 실험으로, 표본 크기가 매우 작습니다. 하루 동안의 과제만 테스트했고, 과제 자체도 학술적으로는 흥미롭지만 실용적으로는 사소한 수준이었습니다.
Anthropic 직원 자원자를 활용한 것은 편의 표집(convenience sample)에 해당합니다. AI에 덜 익숙한 참가자들이었다면 Claude 사용 그룹과 미사용 그룹 간 차이가 더 좁았을 가능성이 큽니다. AI 초보자에게 AI를 제공하더라도 적응 시간이 필요하고, AI 도움 없이 작업하더라도 평소 Claude를 쓰다가 갑자기 빼앗긴 우리 연구원들만큼 당혹스럽지는 않았을 것입니다.
마지막으로, 이번 실험은 Claude가 로보틱스 작업을 처음부터 끝까지 독자적으로 수행할 수 있는지에 대한 테스트는 아니었습니다. 다만 향후 그러한 평가를 향한 중요한 첫걸음이었습니다.
Project Fetch를 마친 지금, 우리는 어디에 와 있으며 어디로 향하고 있을까요?
첫째, 이 실험은 잠재적으로 가치 있는 영역에서 Claude가 인간의 능력을 증폭시킬 수 있음을 다시 한번 보여주었습니다. 비전문가들이 제한된 시간 안에 어려운 로보틱스 과제를 수행해냈습니다.
하지만 AI에서 역량 증폭은 종종 자율성의 전조입니다. 오늘날 모델이 사람을 도와 달성하는 것을, 내일이면 혼자서 해내는 경우가 많습니다. 코더들은 이제 AI에게 디버깅할 코드 조각만 건네는 것이 아니라 과제를 맡기고 모델이 직접 코드를 작성하도록 합니다. 이번 연구 같은 사례를 고려하면, 프론티어 AI 모델이 이전에 접해보지 못한 하드웨어와 성공적으로 상호작용하는 세상이 멀지 않았다고 봅니다.
이러한 역량의 추적은 또 다른 연구 흐름, 즉 차세대 AI 개발을 자동화·가속화하는 AI의 잠재력 모니터링과 함께 이루어져야 합니다. 이는 Anthropic의 책임 있는 확장 정책(Responsible Scaling Policy)에 포함된 역량 임계치 중 하나입니다. 진정으로 자율적인 AI R&D가 실현되면, 급격하고 예측 불가능한 발전이 일어나 위험을 평가하고 대응하는 능력을 앞지를 수 있기 때문입니다. 현재 우리 모델이 그 수준에 도달하지는 않았습니다. 그러나 이 임계치에 가까워진다면, Project Fetch의 결과는 AI 모델의 로보틱스 및 하드웨어 활용 능력이 급격한 도약이 일어날 수 있는 영역임을 모니터링해야 한다는 점을 시사합니다.
불확실성은 여전히 많습니다. 모델 개선 속도와, 물리적 세계에서의 반복 작업이 병목이 되는 정도 모두 예측하기 어렵습니다. 기존 하드웨어를 제어하는 것과, 새로운 하드웨어를 설계·제작·개선하는 것은 차원이 다른 문제이기도 합니다.
하지만 강력하고 지능적이며 자율적인 AI 시스템이 그 지능과 능력의 일부를 로봇을 통해 현실 세계에 행사한다는 아이디어는, 들리는 것만큼 황당한 이야기가 아닙니다.
로봇 개들은 지금은 우리 안에 들어가 있습니다. 하지만 곧 다시 풀어줄 계획이고, 새로운 발견이 있으면 공유하겠습니다.