AI 성능이 아무리 뛰어나도, 정작 작업에 필요한 도구가 갖춰지지 않은 경우가 많다
한 가지 방법은 특정 직무나 작업에 맞는 인터페이스를 따로 만드는 것이다. 전문화된 AI 인터페이스 중 제대로 완성된 것은 프로그래밍 분야가 유일하다. AI 연구소 직원들 대부분이 개발자이고, 모델이 코드를 중심으로 집중적으로 훈련되었으며, 이 도구들을 만드는 사람들이 곧 그 도구를 직접 쓰는 사람들이라는 점을 감안하면 당연한 결과다.
Anthropic의 코딩 에이전트 Claude Code에 대해서는 이전 글에서 다룬 바 있다. 수 시간 동안 자율적으로 작동하는 이 도구와 비슷한 기능을 OpenAI의 Codex와 Google의 Antigravity도 제공한다. 나는 Claude Code로 (소액이나마) 수익을 내거나 게임을 만드는 것까지, 코드 한 줄 건드리지 않고 다양하게 활용해왔다. Codex도 비슷한 수준으로 매우 유용하다. 이 도구들이 훌륭한 건 분명하지만, 솔직히 말해 프로그래머를 위해 만들어진 도구들이다. Python과 Git을 알고 있다는 전제하에 설계되었고, 인터페이스는 1980년대 컴퓨터 실습실을 연상케 한다. 개발자가 아닌 99%의 지식 노동자들에게 이 강력한 AI 도구들은 최적화되어 있지 않다.

AI 연구소 중 다른 직군을 위한 전문 인터페이스 개발에 가장 적극적으로 실험하고 있는 곳은 Google이다. 아직 거친 부분이 있지만, AI 도구가 다양한 유형의 지식 노동자를 위해 설계될 때 미래가 어떤 모습일지 엿볼 수 있다. Google의 Stitch는 AI 네이티브 디자인이 어떤 형태일 수 있는지를 보여준다. 자연어로 앱을 설명하면 일관된 디자인 시스템을 갖춘 여러 연결 화면이 만들어지는 무한 캔버스 방식이다. 비슷한 맥락에서, Pomelli는 웹사이트 URL을 붙여넣으면 브랜드에 맞는 소셜 미디어 캠페인을 자동으로 생성해주는데, 프롬프트가 아닌 마케팅의 언어로 접근해 기술적인 장벽을 낮췄다. 가장 잘 알려진 NotebookLM은 다양한 정보 출처를 조사하고 정리하며 활용하는 방식을 제공한다. 이 도구들 모두 앞으로 나아갈 방향을 보여주지만, 개발자들에게 Claude Code가 가져다준 것과 같은 수준의 혁신에는 아직 미치지 못한다. 하지만 폭발적으로 성장 중인 또 다른 인터페이스가 있다. 바로 개인 에이전트다.
처음 들어본다면, OpenClaw는 오픈소스 AI 에이전트다. 심볼은 빨간 바닷가재이고, 보안 측면에서 상당한 위험 요소가 있음에도 역사상 가장 빠르게 성장한 오픈소스 프로젝트가 됐다. OpenClaw가 이토록 성공한 이유는 진정한 의미의 개인 에이전트이기 때문이다. 평소에 사람들과 연락하는 WhatsApp, Telegram, Slack 같은 앱으로 AI 에이전트와 대화하도록 설계됐다. 이메일 확인, 식당 예약, 파일 검색 같은 작업을 지시하면 직접 컴퓨터에서 처리한다. 돌이켜 보면 당연한 방식으로 인터페이스 문제를 해결한 셈이다. 챗봇이나 커맨드 라인 대신, 이미 익숙한 WhatsApp 같은 앱에서 사람에게 말하듯 AI와 대화할 수 있게 한 것이다.

그러나 OpenClaw는 사용이 까다롭고 보안 위험이 크다. Anthropic의 대안이 바로 Dispatch를 탑재한 Claude Cowork다. 올해 1월에 출시된 Cowork는 지식 노동자를 위한 Claude Code라 할 수 있다. 데스크톱 작업 공간을 통해 Claude가 로컬 파일과 애플리케이션에 접근할 수 있게 해주며, 수십 개의 앱을 커넥터로 연결한다. 커넥터가 없는 경우에는 마우스와 키보드를 직접 제어하는 방식으로 대응한다. 불과 몇 주 전에 추가된 Dispatch는 핵심 기능을 더해준다. 데스크톱에서 Claude가 작업하는 동안 스마트폰으로 메시지를 보낼 수 있게 된 것이다. QR 코드를 스캔하면 스마트폰이 컴퓨터 앞에 앉아 있는 AI 에이전트의 리모컨이 된다.
Dispatch와 Claude Code를 함께 쓰면, 유능한 비서와 대화하는 것 같은 느낌이 든다. 예를 들어 스마트폰으로 Claude에게 아침 브리핑을 준비해달라고 요청했더니, 캘린더·이메일·온라인 채널을 읽어 다음에 해야 할 일을 정리한 보고서를 만들어줬다. 더 복잡한 작업도 가능하다. 스마트폰으로 최근에 만든 프레젠테이션을 열어 3번 슬라이드의 그래프가 최신 데이터를 반영하는지 확인하고, 그렇지 않으면 업데이트해달라고 지시했다. 한 곳에서 잠깐 막히기는 했지만(특정 사이트에서 파일 다운로드가 차단됨), 그 외의 결과는 매우 인상적이었다. Claude는 PowerPoint를 열어 내용을 '확인'하고, 더 최신 데이터를 찾기 위해 컴퓨터 전체를 탐색했다. 최신 논문 링크를 제공하자, PDF를 다운로드해 새로운 그래프를 찾아내고 이미지를 잘라낸 뒤 PowerPoint를 직접 업데이트해주었다. 항상 매끄럽지는 않더라도, 많은 시간을 절약할 만큼 충분히 정교하고 복잡한 작업을 해낸 것이다.

OpenClaw만큼 유연하냐고 묻는다면, 그렇지는 않다. Cowork는 샌드박스 환경으로 운영되어 더 안전하지만 제약도 많다(물론 보안 위험이 전혀 없다는 뜻은 아니다). 커넥터 생태계도 계속 확장 중이지만 아직 완전하지 않다. 컴퓨터를 직접 제어할 수 있다는 개념 자체는 인상적이지만, 실제로는 오류가 발생하는 경우도 있다. 그럼에도 핵심적인 통찰은 OpenClaw가 찾아낸 것과 같다. 사람들이 원하는 건 챗봇이 아니다. 실제 자신의 파일과 도구로 작업하면서, 사람에게 연락하듯 편하게 쓸 수 있는 에이전트를 원한다.
지금까지 살펴본 방식들은 모두 인터페이스를 미리 결정해야 한다는 전제를 깔고 있다. 하지만 최신 AI 시스템은 그 자리에서 바로 인터페이스를 만들어낼 수 있다. 예를 들어, Claude는 최근 몇 주 사이에 대화 안에서 직접 시각화를 생성하는 기능을 갖추게 됐다. 단순한 정적 이미지가 아니라 인터랙티브하게 조정할 수 있으며, 추가 질문에 따라 Claude가 실시간으로 수정해준다.

이는 인터페이스 문제에 대한 완전히 다른 접근이다. 기업들이 모든 종류의 업무에 맞는 전문 인터페이스를 일일이 만드는 대신, AI가 그때그때 필요한 인터페이스를 직접 만들어내는 방식이다. 미래는 하나의 인터페이스가 모든 것을 지배하는 형태가 아닐 것이다. 순간에 맞는 인터페이스를 생성하는 AI, 즉 데스크톱 위의 에이전트, 대화 속의 차트, 문제 해결을 위한 맞춤형 앱이 공존하는 형태가 될 것이다. 우리는 AI의 인터페이스에 사람이 맞춰가던 방식에서, AI가 사람에게 맞게 인터페이스를 조율하는 방식으로 나아가고 있다.
AI의 역량은 AI의 접근성을 한참 앞질러 달려왔다. 모델들은 이미 오래전부터 놀라운 일들을 해낼 만큼 충분히 뛰어났지만, 사람들은 여전히 챗봇을 통해 그 지능에 접근해야 했다. 앞서 살펴본 인지 부하 연구가 보여주듯, 챗봇 방식은 오히려 사람들에게 역효과를 내고 있었다. 인터페이스가 발전하면 훨씬 더 많은 사람들이 AI가 실제로 할 수 있는 것들을 제대로 활용하게 될 것이다. 그 격차를 조금이라도 좁히는 새로운 인터페이스가 등장할 때마다, 모델이 바뀌지 않았더라도(물론 모델도 계속 변화하고 있지만) AI 역량이 한 단계 도약한 것처럼 느껴질 것이다. 사람들이 가끔 표현하는 'AI 실망감'의 상당 부분은 AI가 부족해서가 아니라, 인터페이스가 잘못 설계되어 있기 때문이라고 생각한다. 우리는 현대사에서 가장 강력한 기술 중 하나를 만들어놓고, 사람들이 채팅 창에 글을 입력하는 방식으로만 접근하게 했다. 이는 곧 바뀔 것이다.
오래된 AI 모델을 근거로 주장을 펼치는 논문에는 늘 신중한 태도가 필요하다. 다만 이 경우는 사정이 다르다. 이미 구식이 된 GPT-4o든, GPT-5.4든 그 이후 버전이든, 어차피 모두 텍스트를 덩어리째 쏟아낸다는 점에서 크게 달라진 게 없기 때문이다.