r/AI_Agents•1일 전•15•37

멀티 에이전트가 작성한 코드를 검증할 수 없어서 계속 포기하게 되는데, 다들 어떻게 해결하시나요?

핵심 요약

멀티 에이전트 시스템의 코드 검증 문제에 대해 QA 에이전트 도입 등 각자의 해결책을 공유하는 논의입니다.

검증의 어려움 — 에이전트가 생성한 코드의 기능적 오류를 확인하기 어려움
QA 에이전트 도입 — 브라우저 자동화 도구를 활용해 PR을 검증하는 방식
기존 도구 활용 — Conductor의 리뷰 창 및 외부 리뷰 봇 활용
자동화의 필요성 — 수동 검토 없이 신뢰할 수 있는 배포 환경 구축

Conductor 같은 에이전트 오케스트레이터를 써봤지만, 검증 과정 없이 엄청난 양의 작업을 처리하는 방식 때문에 장기적으로는 계속 포기하게 되더라고요. 결국 항상 Claude Code를 사용하는 1인 에이전트 워크플로우로 돌아오게 되는데, 뭔가 놓치고 있는 것 같은 기분이 듭니다.

계속 겪게 되는 상황:

3~5개의 에이전트가 동시에 작업을 시작하고 각각 PR을 생성함
CI는 통과하고 diff도 합리적으로 보임
아침까지 모든 프리뷰를 일일이 클릭해 볼 수는 없음
diff와 CI 신호만 보고 머지함
다음 날 프로덕션에서 뭔가 깨짐. 에이전트는 내가 시킨 대로 글자 그대로 수행했지만, 기능이 실제로 작동하지는 않는 경우임
CI 통과 여부가 버튼 클릭 시 실제로 작동하는지까지는 알려주지 않거든요. 병렬로 에이전트를 많이 돌릴수록 검증 없이 머지하는 PR만 늘어납니다.

다들 어떻게 해결하고 계신가요?

모든 프리뷰를 수동으로 클릭해 본다? (아침마다 2~3시간 소요)
프리뷰 배포를 구동하는 QA 에이전트를 쓴다?
모든 UI 흐름을 커버하는 머지 전 통합 테스트를 작성한다? (ㅋㅋㅋ)
그냥 머지하고 프로덕션 깨지면 롤백한다?

저는 이 분야에서 직접 무언가를 만들고 있습니다. 각 PR의 프리뷰 배포를 가져와서 Browserbase를 통해 실제 브라우저에서 열고, 기능을 클릭해 본 뒤 작동하지 않으면 PR을 실패 처리하는 두 번째 AI 에이전트입니다. 검증이 알아서 돌아가니까 제가 직접 QA 단계를 거칠 필요가 없죠.

실패하면 빌드 에이전트가 보고서를 받고 최대 3번까지 반복 수정합니다.

저에게는 이게 빠진 퍼즐 조각이었습니다. 이게 없었을 때는 에이전트 5개를 돌려도 PR을 머지하기가 너무 무서웠거든요. 지금은 QA 보고서만 검토하고 통과된 것들만 머지합니다.

혹시 이 문제를 해결하신 분 계신가요, 아니면 다들 확인도 안 하고 머지하고 계신 건가요?

주요 댓글

r/ai_agents

멀티 에이전트 환경에서 코드 검증의 어려움에 공감하며, 아키텍처 결정 보고나 QA 에이전트 도입 등 신뢰도를 높이기 위한 다양한 해결책이 논의되고 있음.

솔직히 나도 Playwright 테스트를 활용한 QA 에이전트 방식을 쓰고 있어. '요구사항은 맞췄는데 실제로는 작동 안 하는' 문제들을 대부분 잡아줘서 멀티 에이전트 설정을 일일이 들여다볼 필요가 없더라.

그 QA 에이전트 직접 만드신 건가요, 아니면 기존 툴을 쓰시는 건가요?

예전에 검증하던 방식 그대로 하면 돼. 코드를 직접 검토하고, 가장 중요한 부분에 자동화 테스트를 투자하고, 문제가 생겼을 때 알 수 있도록 모니터링을 잘 갖추고, 반복적인 사용자 테스트와 개선을 하는 거지. 무작정 머지하는 건 결국 시간만 더 낭비하게 될 거야.

-1

맞아요, 지금 제 워크플로우가 딱 그래요. 코드 리뷰 부분이 병목인데 에이전트가 여러 개면 이게 더 심해지더라고요. 다들 이걸 어떻게 관리하는지 도통 모르겠네요 ㅋㅋ

더 작고 리뷰하기 쉬운 PR 단위로 집중해야죠. 자동화된 리뷰가 1차 검토로는 괜찮지만, 결국 규모를 키우려면 사람을 더 고용해야 합니다.

나도 이 문제 때문에 한참 고생 중임. 기본적인 코드 정확성은 쉬운데, 에이전트가 내리는 눈에 잘 안 띄지만 중요한 아키텍처 결정들을 파악하는 게 훨씬 어려움. 내가 써본 꿀팁 하나는 에이전트한테 지들이 내린 '트레이드오프'를 보고하게 하는 건데, 이게 나름 의미 있는 결정들을 어느 정도 걸러내 주는 것 같음. 이 정보들을 에이전트가 파일 수정할 때마다 보고해야 하는 변경 사유랑 묶어서, 요약된 '피드' 형태로 보여주게 함.

흥미롭네! 한번 확인해 봐야겠다.

거버넌스 시스템을 써야 함. 코드를 강제로 올바르게 작성하게 하고 검증하도록 만드는 거지. 기본적으로 훅과 게이트를 이용해 계약을 강제하는 방식인데, 좀 복잡하긴 해.

난 에이전트 작업 공간에 미리 정의된 규칙을 바탕으로 검증하는 '판사(judge)' 역할을 하는 에이전트를 뒀어. 각 에이전트마다 작업 범위와 규칙을 정해두니까 에이전트가 맘대로 날뛰는(drift) 현상을 막는 데 큰 도움이 되더라. 작업 중에 문제가 생기면 에이전트가 멋대로 판단하는 대신 폴백이나 중단 메커니즘이 작동하게 했지. 예를 들어, 예전에 에이전트가 일일 작업 결과를 다중 보고서(엑셀 파일, HTML 대시보드 요약 등)로 출력하게 했을 때...

브라우저 QA 에이전트 계층이 맞는 방향이긴 한데, 스택에서 가장 느린 루프야. 5개의 병렬 에이전트가 제대로 돌아가려면 하위 계층이 탄탄해야 해. 엄격한 타입 지정, 이전 버그들을 바탕으로 작성한 커스텀 린트 규칙, 현실적인 모의 데이터를 사용한 헤드리스 통합 테스트, 그리고 E2E 테스트까지. 각 단계가 서로 다른 실패 유형을 조기에 잡아내야지. 프리뷰 배포까지 갔을 때 QA 봇은 마지막 방어선이지 유일한 방어선이 되면 안 돼. 관련 계층 구조를 정리해 둔 글이야: https://toddschiller.com/blog/ai-coding-browser-extensi

안녕하세요 u/FormExtension7920 님, Conductor의 Matt입니다. 저희가 Conductor를 개발하면서 이 문제를 관리하는 몇 가지 방법을 알려드릴게요: 리뷰 창: Conductor에서 가장 유용한 기능은 리뷰 창입니다. 여기서 코드 diff와 봇이 남긴 코멘트를 확인할 수 있습니다. 외부 에이전트 리뷰: 저희는 내부적으로 Greptile과 Codex 리뷰 봇을 사용합니다. 저희의 기본 GitHub 연동 기능은 해당 리뷰들을 리뷰 창에 직접 띄워줍니다. 이게 사람의 검토를 완전히 대체할 수는 없지만, 추가적인 도움은 됩니다.

몇 번 시도해 봤는데 상황이 너무 혼란스러워져서, 사실 난 그냥 포기했어.

뭐라는 거임?

나도 겪어본 문제야. QA 에이전트 방식이 올바른 방향이긴 해. 출력 단계에서의 검증은 필수니까. 근데 내가 겪고 있는 또 다른 병목 현상을 말해볼게. QA 에이전트 자체가 이제는 검증 불가능한 에이전트가 되어버렸고, 얘가 수행하는 프리뷰 실행은 실제 사용자가 겪게 될 프로덕션 트래픽과는 다르다는 점이야. 이 스레드에서 다들 명확히 언급은 안 하지만 핵심은 이거라고 봐. 멀티 에이전트 설정에서 '코드가 작동한다'는 건 에이전트가 배포할 당시의 상태에 따른 함수이지, 내가 짠 코드의 함수가 아니라는 거지.

맞는 말임, QA 에이전트도 결국 우리가 검증해야 할 또 다른 레이어니까. 그냥 diff만 보는 것보다는 버튼 클릭이나 상호작용이 담긴 화면 녹화본을 검토하는 게 최소한 더 신뢰할 만하다고 생각했음. 그래도 QA 에이전트에 observability랑 guardrails를 추가하면 신뢰도를 높이는 데 도움이 될 듯.

지금 같이 볼 만한 글

r/LocalLLaMA

다들 무슨 생각 하는지 모르는 척하지 마. 그냥 속마음을 대신 말해주는 거야. /s

r/LocalLLaMA 커뮤니티가 새로운 Qwen 모델 출시를 간절히 기다리는 현상을 풍자하는 글.

22398

r/ClaudeCode

사이코패스처럼? 진짜로?

Claude Code 사용 방식을 두고 '사이코패스'라 지칭한 것에 대해 개발자들이 유머러스하게 반응하며 코딩 습관을 논함.

1063137

r/ClaudeAI

Opus 4.8 진짜 대단하네. 오늘 데이터베이스 협상만 딱 네 번 함.

Claude가 사용자의 지시에는 동의하면서도 실제로는 엉뚱한 작업을 반복하는 상황을 풍자함.

2040220

커뮤니티 전체 보기