멀티 에이전트가 작성한 코드를 검증할 수 없어서 계속 포기하게 되는데, 다들 어떻게 해결하시나요?
핵심 요약
멀티 에이전트 시스템의 코드 검증 문제에 대해 QA 에이전트 도입 등 각자의 해결책을 공유하는 논의입니다.
- 검증의 어려움 — 에이전트가 생성한 코드의 기능적 오류를 확인하기 어려움
- QA 에이전트 도입 — 브라우저 자동화 도구를 활용해 PR을 검증하는 방식
- 기존 도구 활용 — Conductor의 리뷰 창 및 외부 리뷰 봇 활용
- 자동화의 필요성 — 수동 검토 없이 신뢰할 수 있는 배포 환경 구축
Conductor 같은 에이전트 오케스트레이터를 써봤지만, 검증 과정 없이 엄청난 양의 작업을 처리하는 방식 때문에 장기적으로는 계속 포기하게 되더라고요. 결국 항상 Claude Code를 사용하는 1인 에이전트 워크플로우로 돌아오게 되는데, 뭔가 놓치고 있는 것 같은 기분이 듭니다.
계속 겪게 되는 상황:
- 3~5개의 에이전트가 동시에 작업을 시작하고 각각 PR을 생성함
- CI는 통과하고 diff도 합리적으로 보임
- 아침까지 모든 프리뷰를 일일이 클릭해 볼 수는 없음
- diff와 CI 신호만 보고 머지함
- 다음 날 프로덕션에서 뭔가 깨짐. 에이전트는 내가 시킨 대로 글자 그대로 수행했지만, 기능이 실제로 작동하지는 않는 경우임
CI 통과 여부가 버튼 클릭 시 실제로 작동하는지까지는 알려주지 않거든요. 병렬로 에이전트를 많이 돌릴수록 검증 없이 머지하는 PR만 늘어납니다.
다들 어떻게 해결하고 계신가요?
- 모든 프리뷰를 수동으로 클릭해 본다? (아침마다 2~3시간 소요)
- 프리뷰 배포를 구동하는 QA 에이전트를 쓴다?
- 모든 UI 흐름을 커버하는 머지 전 통합 테스트를 작성한다? (ㅋㅋㅋ)
- 그냥 머지하고 프로덕션 깨지면 롤백한다?
저는 이 분야에서 직접 무언가를 만들고 있습니다. 각 PR의 프리뷰 배포를 가져와서 Browserbase를 통해 실제 브라우저에서 열고, 기능을 클릭해 본 뒤 작동하지 않으면 PR을 실패 처리하는 두 번째 AI 에이전트입니다. 검증이 알아서 돌아가니까 제가 직접 QA 단계를 거칠 필요가 없죠.
실패하면 빌드 에이전트가 보고서를 받고 최대 3번까지 반복 수정합니다.
저에게는 이게 빠진 퍼즐 조각이었습니다. 이게 없었을 때는 에이전트 5개를 돌려도 PR을 머지하기가 너무 무서웠거든요. 지금은 QA 보고서만 검토하고 통과된 것들만 머지합니다.
혹시 이 문제를 해결하신 분 계신가요, 아니면 다들 확인도 안 하고 머지하고 계신 건가요?


