Claude Code가 이제 PR마다 에이전트 팀을 자동으로 투입해, 빠르게 훑어볼 때 놓치기 쉬운 버그까지 잡아냅니다. Team 및 Enterprise 플랜을 대상으로 리서치 프리뷰가 시작됐습니다.
오늘 코드 리뷰(Code Review) 기능을 선보입니다. PR이 열릴 때마다 에이전트 팀을 자동으로 투입해, 빠르게 훑어볼 때 놓치기 쉬운 버그까지 잡아내는 기능으로, 속도보다 깊이에 초점을 맞췄습니다. Anthropic 내부에서 거의 모든 PR에 실제로 적용하고 있는 시스템이기도 합니다. 현재 Team 및 Enterprise 플랜을 대상으로 리서치 프리뷰가 시작됐습니다.
지난 1년간 Anthropic 엔지니어 1인당 코드 산출량이 200% 늘었습니다. 자연히 코드 리뷰가 병목 지점이 됐고, 매주 고객들에게서도 같은 이야기를 듣습니다. 개발자들이 여러 업무에 치여 PR을 꼼꼼히 읽기보다 빠르게 훑고 넘어가는 경우가 많다는 것입니다.
모든 PR을 믿고 맡길 수 있는 리뷰어가 필요했습니다. 코드 리뷰는 그 결과물입니다. 멀티 에이전트 방식으로 깊이 있는 리뷰를 수행하며, 사람 리뷰어도 놓치기 쉬운 버그를 잡아냅니다. 기존의 Claude Code GitHub Action보다 더 정밀하고, 그만큼 비용도 높은 옵션입니다. 기존 GitHub Action은 오픈 소스로 계속 제공됩니다.
Anthropic은 코드 리뷰를 내부 PR에 폭넓게 적용하고 있습니다. 도입 전에는 PR의 16%에만 실질적인 리뷰 코멘트가 달렸는데, 지금은 54%로 늘었습니다. PR 승인 여부는 여전히 사람이 결정하지만, 코드 리뷰가 그 간극을 좁혀 리뷰어가 실제로 출시되는 코드를 제대로 살펴볼 수 있게 합니다.
PR이 열리면 코드 리뷰가 에이전트 팀을 투입합니다. 에이전트들은 병렬로 버그를 탐색하고, 오탐을 걸러내기 위해 발견된 버그를 검증한 뒤, 심각도 순으로 정렬합니다. 결과는 PR에 핵심만 담은 요약 코멘트 하나와, 구체적인 버그 위치에 달리는 인라인 코멘트로 전달됩니다.
리뷰 규모는 PR에 따라 자동으로 조정됩니다. 변경 범위가 크거나 복잡한 PR에는 더 많은 에이전트를 투입해 면밀히 살피고, 단순한 변경은 가볍게 검토합니다. 테스트 결과, 평균 리뷰 소요 시간은 약 20분입니다.
코드 리뷰를 수개월간 내부에서 운영한 결과, 1,000줄 이상 변경된 대규모 PR의 84%에서 문제가 발견됐으며 평균 7.5개의 이슈가 나왔습니다. 50줄 미만의 소규모 PR에서는 31%에서 발견이 있었고 평균 0.5개였습니다. 엔지니어들의 동의율도 높아, 발견된 내용 중 틀렸다고 표시된 비율은 1% 미만이었습니다.
실제 사례 중 하나를 소개합니다. 프로덕션 서비스에서 한 줄짜리 변경이 있었는데, 겉보기에는 별다를 게 없어 빠른 승인이 날 법한 diff였습니다. 그런데 코드 리뷰가 이를 심각한 문제로 플래그했습니다. 해당 변경은 서비스 인증을 완전히 깨뜨릴 수 있는 코드였습니다. diff만 봐서는 그냥 지나치기 쉽지만, 짚어주면 바로 알 수 있는 문제였죠. 결국 머지 전에 수정됐고, 담당 엔지니어는 나중에 혼자였다면 못 잡았을 거라고 했습니다.
얼리 액세스 고객들도 비슷한 경험을 하고 있습니다. TrueNAS 오픈 소스 미들웨어의 ZFS 암호화 리팩터링 작업에서, 코드 리뷰는 PR이 수정한 인접 코드에서 기존에 있던 버그를 발견했습니다. 동기화가 일어날 때마다 암호화 키 캐시가 조용히 지워지는 타입 불일치 문제였습니다. PR이 건드린 코드에 원래부터 잠재돼 있던 이슈로, 변경 집합만 훑는 사람 리뷰어라면 선뜻 찾아볼 생각을 하기 어려운 종류의 버그였습니다.
코드 리뷰는 깊이 있는 분석을 목표로 하는 만큼, Claude Code GitHub Action 같은 경량 솔루션보다 비용이 높습니다. 요금은 토큰 사용량 기준으로 청구되며, PR 크기와 복잡도에 따라 달라지지만 평균적으로 건당 $15–25 수준입니다.
관리자는 다양한 방법으로 지출과 사용 범위를 통제할 수 있습니다.
코드 리뷰는 Team 및 Enterprise 플랜을 대상으로 베타 리서치 프리뷰로 지금 바로 이용할 수 있습니다.
자세한 내용은 문서를 참고하세요.