지금 우리가 어디쯤 와 있는지, 그리고 앞으로 어떤 일이 벌어질지
지수적 향상은 직관적으로 와닿지 않기 때문에, 차트나 그래프 대신 해달 이야기부터 시작하겠습니다. 제 글을 꾸준히 읽어오신 분이라면 해달 테스트(Otter Test)를 아실 겁니다. 다양한 AI 이미지 모델에 "비행기 안에서 와이파이를 쓰고 있는 해달"이라는 프롬프트를 주고 결과를 비교하는 테스트인데요. 아래를 보시면, ChatGPT가 출시된 2022년부터 2025년까지의 발전 속도가 얼마나 놀라운지 확인할 수 있습니다.

그렇다면 2025년 4월 이미지 이후로는 어떤 변화가 있었을까요? 이미지가 거의 완벽한 수준에 도달하면서 동영상이 새로운 전선이 되었고, 여기서도 지수적 성장이 이어지고 있습니다. 이를 보여드리기 위해, TikTok 모회사 바이트댄스(Bytedance)가 만든 가장 진보된 AI 동영상 모델(아직 미국에서는 미출시)에 다음과 같은 프롬프트를 넣었습니다: 해달들이 Ethan Mollick의 '해달 테스트'—비행기에 앉아 있는 해달 이미지를 생성하는 능력으로 AI를 평가하는 테스트—를 어떻게 바라보는지에 대한 다큐멘터리. 아래 영상은 바로 첫 번째 결과물입니다. 소리를 꼭 켜고 보세요:
발음 실수 한 군데를 빼면 거의 완벽합니다. 해달들의 표정이 사람처럼 자연스럽게 애니메이션되어 있다는 점까지 포함해서요. 물론 동영상 모델은 인상적이지만, 실용적인 에이전트 AI의 능력을 직접 보여주는 것은 아닙니다. 그렇다면 AI 성능 벤치마크에서도 같은 지수적 곡선이 나타날까요?
현재 AI 분야에서 가장 유명한 평가 지표인 METR Long Tasks 그래프를 보면 답은 명확합니다. 이 지표는 AI가 일정 수준의 신뢰성을 갖추고 자율적으로 처리할 수 있는 인간 작업량의 규모를 측정합니다. 비판의 목소리도 있고, METR 스스로도 잠재적 문제를 지적한 바 있습니다. 하지만 METR 그래프가 마음에 들지 않더라도, AI 성능을 보여주는 대부분의 그래프에서 같은 곡선이 나타납니다.

구체적인 예시를 들어보겠습니다. 난이도 높고 분야도 다양한 AI 테스트 네 가지를 골라 시간에 따른 점수 변화를 아래 그래프로 정리했습니다. 왼쪽 상단은 Google-Proof Q&A 벤치마크 점수입니다. 대학원생이 구글 검색을 활용해도 전공 외 분야에서 34%, 전공 분야에서 70% 정도를 맞히는 지식 테스트인데, 최고 수준의 AI는 현재 94%를 기록합니다. GDPval도 살펴보시죠. 이 평가에서는 업계 전문가들이 복잡한 과제에서 AI와 숙련된 인간의 성과를 비교 판정하는데, 최신 AI는 82%의 과제에서 최상위 인간과 동등하거나 그 이상의 성과를 냅니다. Humanity's Last Exam도 같은 패턴을 보입니다. 대학 교수들이 출제한 상당한 전문 지식이 필요한 고난도 문제 세트인데요. 심지어 AI의 퍼즐 풀이 능력으로 봐도 마찬가지입니다(여기서 직접 풀어보실 수 있는데, 꽤 재밌습니다!). 어느 테스트든 빠른 성능 향상이 나타나며, 최고 점수에 도달하기 전까지는 둔화 조짐이 거의 보이지 않습니다.

지수적 그래프는 인상적이지만, 이런 테스트들이 저마다 한계를 갖고 있다는 점도 분명히 짚어야 합니다. AI는 여전히 들쭉날쭉합니다. 어떤 과제는 높은 수준으로 해내면서도, 다른 과제에서는 엉뚱한 실수를 합니다. 게다가 테스트에서 보이는 놀라운 성능에도 불구하고, 기업들의 AI 도입은 아직 초기 단계에 머물러 있어 대부분의 조직에서는 눈에 띄는 변화가 거의 없습니다. 다만 '대부분'이 '전부'를 의미하지는 않습니다. AI 에이전트의 새로운 역량을 활용한 조직 운영 방식이 이미 등장하기 시작했습니다.
몇 주 전, 접근 제어 전문 보안 소프트웨어 기업 StrongDM의 3인 팀이 소프트웨어 팩토리(Software Factory)를 구축했다고 발표했습니다. AI 에이전트에게 프로덕션 소프트웨어의 작성, 테스트, 배포를 전적으로 맡기는 새로운 업무 방식입니다. 여기에는 상당히 과감한 규칙 두 가지가 포함되어 있습니다: "코드를 사람이 직접 작성해서는 안 된다"와 "코드를 사람이 리뷰해서는 안 된다". 이 팩토리를 가동하기 위해, 엔지니어 한 명당 자기 연봉에 맞먹는 수준의 AI 토큰 비용을 사용해야 합니다. 하루 최소 1,000달러입니다.
소프트웨어 팩토리의 기본 개념은 이렇습니다. 사람이 작성한 제품 로드맵을 입력하면, AI가 이를 실제 제품으로 만들어냅니다. 코딩 에이전트가 로드맵을 기반으로 소프트웨어를 개발하고, 테스팅 에이전트가 시뮬레이션된 고객 환경에서 소프트웨어를 검증합니다(이 시뮬레이션 환경도 테스팅 에이전트가 필요에 따라 구축합니다). 에이전트 집단이 서로 피드백을 주고받으며 AI가 만족할 때까지 반복합니다. 그런 다음 사람이 완성된 제품을 검토하고, 누구도 코드를 직접 건드리거나 확인하지 않은 채로 결과물이 고객에게 배포됩니다.

이 방식이 작동하게 만드는 세부 사항은 당연히 많고, StrongDM 팀은 그 내용을 상당 부분 공개했습니다. 또한 팩토리 운영 과정을 외부 전문가들에게 공개하고 의견을 구했는데, Simon Willison과 Dan Shapiro의 후기를 읽어보면 이 방식의 강점과 약점을 더 잘 파악할 수 있습니다. 하지만 어떤 면에서는, 소프트웨어 팩토리의 구체적인 디테일보다 더 중요한 것이 있습니다. 바로 업무 방식에 대한 이 정도의 급진적 실험이 이제 가능할 뿐 아니라, 필요하기까지 하다는 사실입니다. AI는 이미 조직의 운영 방식을 바꿀 만큼 충분히 강력하며, 모델이 계속 발전하는 와중에 실험은 이제 막 시작되었을 뿐입니다.
실용적인 에이전트, 들쭉날쭉한 지수적 성장, 업무 본질에 대한 급진적 실험 가능성—이 세 가지가 결합되면서, AI 발전을 둘러싼 환경은 예측 불가능한 연쇄적 격변의 양상을 띠고 있습니다. AI 역량이 특정 임계점을 넘을 때마다, AI로 무엇이 가능한지에 대한 인식이 하룻밤 사이에 뒤바뀌는 전혀 새로운 활용 사례가 등장합니다. 동시에, AI를 실험적으로 도입한 조직들이 자기만의 활용법을 발견하면서 새로운 전략이나 인력 구조의 대규모 전환을 갑작스럽게 발표하기도 합니다. 여기에 AI 성능이 계속 향상되면서 정책 입안자들의 AI 거버넌스에 대한 관심이 높아지고, AI 기업과의 충돌로 이어지기도 합니다.
이건 추측이 아닙니다. 실제로 이 모든 일이 단 한 주 안에 벌어졌습니다. 2월 22일, 잘 알려지지 않은 금융 리서치 기관 Citrini Research가 AI 도입이 2028년까지 여러 기존 기업을 무너뜨릴 수 있다는 가상 시나리오를 발표했습니다. 무리한 가정도 많았지만 월스트리트의 민감한 지점을 건드렸고, 주요 종목의 주가가 크게 흔들렸습니다. 2월 26일에는 핀테크 기업 Block이 40% 감원을 발표하며 AI가 그 원인임을 시사했습니다. 실제로는 AI의 역할이 크게 과장된 것으로 보이며, 대규모 감원의 명분으로 AI가 활용된 것에 가깝습니다. 그리고 그 주의 마무리로, 2월 27일에는 미 국방부와 AI 기업 Anthropic 사이에 정부가 Claude를 사용할 때 누가 규칙을 통제할 수 있는지를 둘러싼 매우 공개적인 갈등이 벌어졌습니다.

여러모로, 이 사건들은 각각 처음 보이는 것과 실상이 달랐습니다. Citrini 보고서는 가상 시나리오였고, Block의 감원은 AI 때문이 아니었으며, 전쟁에서의 AI 활용을 둘러싼 갈등에는 아직도 완전히 정리되지 않은 복잡한 쟁점들이 얽혀 있었습니다. 하지만 이 한 주가 가까운 미래가 어떤 느낌일지를 잘 보여준다고 생각합니다. AI 역량에 대한 갑작스러운 인식 전환이 시장의 즉각적인 반응을 촉발합니다. 일자리에 대한 AI의 영향은 점점 현실로 다가옵니다(그 영향이 단기적으로 긍정적인지 부정적인지에 대한 논쟁은 여전하지만요). 그리고 AI 기업과 전 세계 정책 결정 과정의 얽힘은 더욱 깊어집니다. 이해관계가 커질수록 불안정성은 더 심해질 가능성이 높습니다.
물론 상황이 잠잠해질 가능성도 있습니다. AI 성능 향상이 벽에 부딪히고, 조직들이 변화를 점진적으로 흡수하며, 사람들이 AI로 할 수 있는 것과 없는 것을 파악해가면서 연쇄적 격변이 관리 가능한 수준으로 줄어들 수도 있습니다. 모든 것을 하루아침에 바꿀 것처럼 보였지만 실제로는 경제를 재편하는 데 수십 년이 걸린 기술들이 역사에는 수두룩합니다.
하지만 저는 그쪽에 베팅하지 않겠습니다.
한 가지 이유는 AI 기업들이 다음 단계를 꽤 명시적으로 말하고 있기 때문입니다. 바로 재귀적 자기 개선(Recursive Self-Improvement, RSI)입니다. AI 시스템이 더 나은 AI 시스템을 만드는 데 점점 더 많이 활용되면서, 앞서 보여드린 곡선을 더욱 가파르게 만들 수 있는 피드백 루프가 형성된다는 개념입니다. 1월 다보스 포럼에서 Anthropic의 Dario Amodei는 코딩과 AI 연구에 능숙한 모델을 만들면, 그 모델로 차세대 모델을 구축해 루프를 가속할 수 있다고 설명했습니다. 그는 Anthropic 내부 엔지니어들이 이제 직접 코드를 거의 작성하지 않는다고도 언급했습니다. OpenAI가 2월에 최신 Codex 모델을 출시하면서 "자기 자신을 만드는 데 핵심적으로 기여한 최초의 모델"이라고 밝혔습니다. Google DeepMind의 Demis Hassabis도 같은 다보스 패널에서 자기 개선 루프를 완성하는 것이 모든 주요 연구소가 적극적으로 추진하는 과제라고 인정하면서도, 아직 부족한 역량과 실질적 위험이 존재한다고 경고했습니다.
이것이 어디까지 갈지는 아무도 모릅니다. 재귀적 자기 개선은 수십 년 된 이론적 개념이며, 연구소들이 컴퓨팅 자원, 데이터, 또는 AI 연구 자체의 근본적 난이도에서 병목에 부딪힐 수도 있습니다. LLM 기반 AI가 결국 더 이상 나아질 수 없는 천장에 도달할지, 혹은 들쭉날쭉한 경계선이 끝내 매끄러워지지 않을지도 알 수 없습니다. 확실한 것은 아무것도 없다고 생각하지만, 동시에 재귀적 자기 개선이 공상과학에 머무르는 단계는 이미 지났다고 봅니다. 이제 이것은 모든 주요 AI 기업의 명시적인 로드맵 항목입니다. 만약 이 루프가 실제로 완성된다면, 지금까지 지켜봐 온 지수적 곡선은 더욱 가팔라질 것이며, 그 끝이 어디인지는 누구도 장담할 수 없습니다.
지금 우리가 서 있는 자리는 이렇습니다. 2월의 그 한 주가 보여준 불안정성은, AI의 고도화된 역량이 시장·일자리·정부와 동시에 충돌할 때 어떤 일이 벌어지는지를 보여주는 예고편이었습니다. 이 불확실성은 앞으로 더 넓게 퍼질 가능성이 높습니다. 하지만 불확실하다는 것이 무력하다는 뜻은 아닙니다. 기술이 이토록 강력하고 미확정적인 상태일수록, 개인과 조직이 지금 내리는 선택이 더 큰 의미를 갖습니다. 흐름의 윤곽은 이제 보입니다. 그러나 그 흐름 자체, 그리고 그것이 우리 모두에게 어떤 의미를 갖게 될지에는 아직 영향을 미칠 수 있습니다. 직장에서, 학교에서, 정부에서 AI를 어떻게 써야 하는지에 대한 규칙도, 본보기도 아직 없습니다. 이것은 문제이기도 하지만, 동시에 지금 좋은 AI 활용법을 찾아낸 조직이 다른 모든 조직의 선례가 된다는 뜻이기도 합니다. 흐름의 윤곽을 직접 만들어갈 수 있는 창은 오래 열려 있지 않을 수 있습니다. 하지만 지금은 열려 있습니다.
