코딩 에이전트에게 평가하는 법을 가르쳐 보세요.

오늘 evals-skills를 공개합니다. AI 제품 평가를 위한 스킬 모음1으로, 50곳 이상의 기업을 지원하고 강의에서 4,000명 이상의 수강생을 가르치며 반복적으로 목격한 흔한 실수들을 방지하기 위해 만들었습니다.
코딩 에이전트는 이제 애플리케이션 계측, 실험 실행, 데이터 분석, 인터페이스 구축까지 해냅니다. 저는 이 에이전트들을 평가 작업에 투입해 왔습니다.
OpenAI의 Harness Engineering 아티클이 이 점을 잘 보여줍니다. 이들은 Codex 에이전트만으로 제품 하나를 통째로 만들었습니다 — 엔지니어 3명, 5개월, 코드 약 100만 줄 — 그리고 모델 자체를 개선하는 것보다 에이전트 주변 인프라를 개선하는 것이 더 중요하다는 결론에 도달했습니다. 에이전트는 트레이스를 조회해 자신의 작업 결과를 스스로 검증했습니다. 문서는 에이전트에게 무엇을 해야 하는지 알려주고, 텔레메트리는 그것이 제대로 동작했는지 알려주며, 평가는 결과물의 품질이 충분한지 알려줍니다.
주요 평가 플랫폼 벤더들은 이미 MCP 서버를 제공하고 있습니다2. 앱 계측, 실험 오케스트레이션, 어노테이션 도구 구축 같은 번거로운 작업은 이제 코딩 에이전트가 맡을 수 있습니다.
하지만 평가 플랫폼에 접근할 수 있다고 해서 에이전트가 그걸 어떻게 활용해야 하는지까지 아는 것은 아닙니다. 예를 들어, 고객 지원 봇이 고객에게 "고객님의 플랜에는 무료 반품이 포함되어 있습니다"라고 답했지만 실제로는 그렇지 않은 경우가 있습니다. 또 다른 봇은 아무도 요청하지 않았는데 "주문을 취소해 드렸습니다"라고 말합니다. 둘 다 할루시네이션이지만, 하나는 사실관계 오류이고 다른 하나는 존재하지 않는 사용자 행동을 지어낸 것입니다. 이 둘을 하나의 "할루시네이션 점수"로 뭉뚱그리면 오류를 놓치게 됩니다.
이 스킬들이 바로 그 빈틈을 채워줍니다. 벤더 MCP 서버와 상호보완적인 관계입니다. MCP 서버가 에이전트에게 트레이스와 실험에 대한 접근 권한을 준다면, 이 스킬들은 그 데이터를 가지고 무엇을 해야 하는지를 알려줍니다.
평가가 처음이거나 기존 평가 파이프라인을 물려받은 상황이라면 eval-audit부터 시작하세요. 현재 설정(혹은 설정이 없는 상태)을 점검하고, 6개 영역에 대해 진단을 수행한 뒤, 우선순위가 매겨진 문제 목록과 다음 단계를 제시합니다. 스킬을 설치하거나 에이전트에 아래 프롬프트를 입력하세요:
Install the eval skills plugin from https://github.com/hamelsmu/evals-skills, then run /evals-skills:eval-audit on my eval pipeline. Investigate each diagnostic area using a separate subagent in parallel, then synthesize the findings into a single report. Use other skills in the plugin as recommended by the audit.
평가 경험이 충분하다면 감사(audit)를 건너뛰고 필요한 스킬을 바로 선택할 수 있습니다:
| 스킬 | 기능 |
|---|---|
| error-analysis | 트레이스를 읽고 실패를 분류하여, 무엇이 잘못되었는지에 대한 용어 체계를 구축 |
| generate-synthetic-data | 실제 데이터가 부족할 때 다양한 테스트 입력을 생성 |
| write-judge-prompt | 이진(Pass/Fail) 방식의 LLM-as-Judge 평가기 설계 |
| validate-evaluator | TPR/TNR 및 편향 보정을 통해 평가기를 사람의 레이블 기준으로 캘리브레이션 |
| evaluate-rag | 검색 품질과 생성 품질을 분리하여 평가 |
| build-review-interface | 사람이 트레이스를 검토할 수 있는 어노테이션 인터페이스 생성 |
이 스킬들은 출발점일 뿐이며, 프로젝트 전반에 공통적으로 적용되는 흔한 실수만 다루고 있습니다. 여러분의 기술 스택, 도메인, 데이터에 맞춰 직접 작성한 스킬이 훨씬 더 좋은 성과를 낼 것입니다. 여기서 시작한 뒤 자신만의 스킬을 만들어 보세요.
👉 저장소 링크: github.com/hamelsmu/evals-skills 👈
이 스킬이 도움이 되셨다면 꼭 알려주세요! X에서 만나거나, 뉴스레터를 통해 이메일을 보내주셔도 좋습니다.
MMLU나 HELM처럼 LLM의 일반적인 능력을 측정하는 파운데이션 모델 벤치마크가 아닙니다. 제품 평가는 여러분의 파이프라인이 여러분의 태스크에서 여러분의 데이터로 제대로 동작하는지를 측정합니다. 제품 특화 AI 평가가 익숙하지 않다면 AI Evals FAQ를 참고하세요.↩︎
Braintrust, LangSmith, Phoenix, Truesight 등이 있습니다.↩︎