네 팀의 고객사가 누구보다 먼저 Opus 4.6을 테스트했다. 이들의 테스트 방식, 기술적 성과, 그리고 정식 출시에 반영된 피드백을 살펴본다.
새로운 Claude 모델이 정식 출시되기 전, 소수의 고객사가 일반 공개에 앞서 며칠 먼저 접근 권한을 받는다. 이들은 프리프로덕션 리서치 모델을 실제 업무에 투입해 모델이 무엇을 잘하는지, 어디서 무너지는지, 그리고 Anthropic이 공개 출시하는 즉시 자사 사용자에게 배포할 준비가 됐는지를 검증한다. 무엇이 작동하고 무엇이 그렇지 않은지에 대한 솔직한 평가는 Anthropic이 최종적으로 출시하는 모델 버전에 직접 반영된다.
주어진 시간은 촉박하다. 각 팀은 일정을 비우고 워룸을 꾸린 뒤, 가장 까다로운 문제부터 모델에 던지기 시작한다. 무대 뒤에서는 밤샘 작업이 이어지고, 커피잔이 쌓이고, 이상한 시각에 Slack 채널이 불야성을 이룬다. 고객들이 마주하는 완성된 결과물 뒤에는, 훨씬 지저분하고 훨씬 재미있는 과정이 숨어 있다.
이 글에서는 그 과정을 직접 들여다보려 한다. Harvey, bolt.new, Shopify, Lovable, 이 네 팀이 Claude Opus 4.6 얼리 액세스 기간의 내부를 공개해 주었다. 각 팀이 취한 접근 방식, 발견한 기술적 성과, 그리고 누구보다 먼저 얻어낸 인사이트를 살펴본다.
팀이 테스트를 시작하는 방식은 무엇을 만드느냐에 따라 크게 달라진다.
bolt.new는 전용 Slack 채널을 개설하고, 서로의 판단에 영향을 주지 않기 위해 초기 인상을 의도적으로 공유하지 않았다.
Harvey의 리서치 팀은 실무 법률 업무를 평가하는 자체 벤치마크인 BigLaw Bench를 돌리는 동시에, 경력 있는 변호사들을 투입해 법률 태스크를 직접 테스트했다.
Shopify의 엔지니어들은 기존에 Claude를 기반으로 구축해 둔 반복적 계획 루프에 새 모델을 바로 투입했다.
Lovable에서는 모델 및 평가(eval) 담당 팀이 즉각 벤치마크를 가동했고, 엔지니어들은 이른바 "바이브 체크(vibe check)"를 위한 시간을 따로 잡았다. 새 모델로 앱을 직접 만들어보며 어디서 더 강해졌는지 몸으로 느끼는 과정이다. Lovable의 엔지니어링 리드 Alexandre Pesant은 "크리스마스 같은 느낌"이라고 표현했다.
접근 방식은 달랐지만, 본능은 같았다. 가장 어려운 문제를 먼저 던져라.
테스트가 진행되면, 각 팀이 주목하는 건 두 가지다. 벤치마크 점수와, 실제로 쓸 때의 감각. 둘 다 중요하고, 항상 같은 말을 하진 않는다.
Harvey의 BigLaw Bench 결과는 90.2%로 나왔다. Anthropic 모델 중 처음으로 해당 벤치마크에서 90%를 넘은 것이며, 태스크의 40%는 만점을 받았다. 하지만 더 깊이 남은 건 정성적 반응이었다.
사내 변호사 한 명이 쿼리 하나를 실행한 뒤, 결과물이 "실제로 생각하는 것 같은, 명석하고 분석적인 느낌"이라고 했다. 구조화된 평가와 현업 전문가가 같은 말을 할 때, 그건 강력한 신호다.
bolt.new는 빌드 품질, 버그 수정, 코드베이스 이해도, 디자인 완성도를 테스트하는 자동화 평가 플랫폼과 직접 스트레스 테스트를 병행했다. 첫날이 끝날 무렵, 배포된 테스트 앱과 구체적인 관찰 내용으로 가득 찬 공유 문서가 만들어졌다.
한 개발자는 이전 모델로 다섯 번 이상 시도했지만 끝내 고치지 못한 워터폴 그래프 버그를 가져왔다. Opus 4.6은 첫 시도에 진단을 내렸다. HubSpot API 검색 여덟 개가 동시에 병렬로 실행되고 있었고, 일부 쿼리가 프로젝트의 속도 제한(rate-limit) 래퍼 대신 raw fetch를 직접 사용해 보호를 우회하고 있었다는 것이다.
Shopify의 스태프 엔지니어 Paulo Arruda는 기존의 패턴이 뒤집어지는 순간을 묘사했다. "Opus 4.6에게 어떤 항목을 한 페이지에서 다른 메뉴로 옮겨달라고만 했습니다. 세부 사항은 전혀 지정하지 않았어요. 그런데 단순히 옮기는 것에서 그치지 않고, 제가 보기 전까지 원하는 줄도 몰랐던 디테일들을 잔뜩 추가해 놨더라고요. 다음 요청을 미리 예측해서 그냥 해버린 거죠. 전에는 AI가 제 말에 '맞아요'라고 했는데, 이번엔 제가 AI한테 '완전히 맞아요'라고 하게 됐습니다."
Shopify Assistants 팀의 스태프 엔지니어 Ben Lafferty는 다른 방향으로 밀어붙였다. 내부 프로토타입을 위해 Opus 4.6에게 대형 라이브러리를 TypeScript에서 Ruby로 포팅하도록 했다. "모델이 기존 저장소의 테스트 케이스를 실행할 심(shim)을 직접 만들고, 원본 테스트 세트와 검증하면서 스펙 대부분을 한 번에 포팅했습니다"라고 그는 말했다. "명령 수행 능력이 눈에 띄게 향상됐어요. 얼리 액세스 기간에 실질적인 피드백을 거의 드리지 못한 건 이번이 처음입니다."
Lovable에서는 테스트가 두 트랙으로 진행됐다.
팀은 구조화된 그림을 얻기 위해 디자인 벤치마크와 복잡한 태스크 평가를 돌리는 한편, "바이브 체크"도 병행했다. 엔지니어들이 새 모델로 앱을 직접 만들어보며 어디서 강해지고 어디서 무너지는지를 감각으로 파악하는 과정이다.
"새로운 거친 모서리를 누가 먼저 발견하느냐는 늘 경쟁이에요"라고 Alexandre Pesant은 말했다.
그 자신의 스트레스 테스트는 복잡한 지하철 노선 매핑과 여행 일정 로직이 얽힌 사이드 프로젝트였다. 이전 모델들로 시도했다가 벽에 부딪혔던 작업이다. Opus 4.6에서 최대 effort로 돌렸더니, 막힐 것이라 예상했던 지점을 그냥 통과했다.
"언제 안 되는지, 한계에 부딪히는지는 대략 알거든요"라고 그는 말했다. "다른 모델들보다 더 멀리 갔습니다." 그는 더 넓은 변화도 감지했다. Lovable 내에서 모델이 브라우저를 직접 사용하고 스스로 테스트할 수 있게 되면서, "자율성에서 오는 차이가 느껴진다"고 했다.
얼리 액세스가 마무리될 즈음, 각 팀은 자신들이 무엇을 가지고 있는지 선명한 그림을 갖게 된다. 우리가 이야기를 나눈 모든 팀이 같은 지점으로 계속 돌아왔다. 모델과의 관계가 달라지고 있다는 것이다.
"Opus 4.6은 이전 모델로 다섯 번 이상 시도해도 고치지 못했던 버그를 첫 시도에 잡아냈습니다. 추론 깊이의 도약은 실제입니다"라고 bolt.new의 마케팅 부사장 Garrett Serviss는 말했다.
"제게 Opus 4.6은 Anthropic 모델 중 처음으로 일상 업무에서 진정한 협업자처럼 느껴지는 모델입니다. 모델에게 넘길 수 있는 작업의 시간 지평이 계속 늘어나고 있어요"라고 Shopify의 Ben Lafferty는 말했다.
"Claude Opus 4.6은 디자인 품질의 향상입니다. 더 자율적이고, 그것이 Lovable의 핵심 가치와 맞닿아 있어요. 사람들은 AI를 일일이 지시하는 대신, 의미 있는 것을 만드는 데 집중해야 합니다"라고 Lovable의 공동창업자 Fabian Hedin은 말했다.
물론 피드백이 전부 호평은 아니었고, 그래야 맞다. 얼리 테스터들의 의견은 Anthropic이 최종 출시하는 모델 버전에 직접 반영된다. 이 과정이 제대로 작동하는 건, 각 팀이 잘 되는 점만큼이나 안 되는 점에 대해서도 솔직하게 말하고, 그 솔직함이 실제로 반영된다는 걸 알기 때문이다.
"우리 엔지니어링 조직이 쓸 도구의 미래를 함께 만들어가고 있습니다"라고 Shopify의 Paulo Arruda는 말했다. "우리는 단순한 테스터가 아니라 개발 파트너입니다. 문제나 패턴을 발견하면, Anthropic이 귀를 기울이고 반영합니다."