Langsmith, Braintrust, Arize Phoenix 같은 AI 평가 도구를 비교·검토하는 방법을 실제 사례로 살펴봅니다.
지난 1년간 저는 컨설팅과 강의 모두에서 AI 평가(Evals)에 집중해 왔습니다. 그러다 보니 "평가 도구 중 뭐가 제일 좋나요?"라는 질문을 정말 자주 받습니다. 그런데 저는 항상 직접적인 답변을 피해 왔는데, 이유는 두 가지입니다. 첫째, 많은 분이 프로세스보다 도구 자체에 지나치게 집중하면서 도구만 도입하면 바로 문제가 해결될 거라 기대하지만, 현실은 거의 그렇지 않습니다. 둘째, 도구들이 워낙 빠르게 변해서 비교 자료가 나오는 순간 이미 구식이 되어 버립니다.
인기 있는 평가 도구 대부분을 직접 써 본 입장에서 솔직히 말하면, 모든 면에서 뛰어난 단 하나의 도구는 없습니다. "최고의" 도구는 팀의 역량, 기술 스택, 그리고 성숙도에 따라 달라집니다.
그래서 기능별 비교표를 늘어놓는 대신, 평가에 숙련된 데이터 사이언티스트 패널이 어떤 관점으로 도구를 검토하는지 보여드리는 편이 더 유익하다고 생각했습니다. 제가 진행하는 AI 평가 강좌의 일환으로, 대표적인 세 벤더—Langsmith, Braintrust, Arize Phoenix—에 동일한 과제를 수행하도록 요청했습니다. 덕분에 같은 문제를 각 도구가 어떻게 풀어내는지 직접 비교해 볼 수 있었습니다.
전 과정과 실시간 코멘터리를 녹화해 두었으며, 아래에서 확인하실 수 있습니다. 팀에 맞는 도구를 선택할 때 어떤 점을 고려해야 하는지 파악하는 데 도움이 되길 바랍니다.
패널로 함께해 주신 Shreya Shankar와 Bryan Bischof에게 감사드립니다.
LangChain CEO Harrison Chase 출연
Braintrust 전 개발자 관계 담당 Wayde Gilliam 출연
Arize Technical AI Product Leader SallyAnn DeLucia 출연
리뷰 과정에서 반복적으로 떠오른 핵심 주제들을 정리했습니다.
개별 기능보다 마찰을 줄이는 것이 더 중요합니다. 구체적으로는, 실패를 발견한 시점부터 해결책을 반복 실험하기까지 걸리는 시간에 주목해야 합니다. 예를 들어, 하나의 트레이스를 확인한 뒤 바로 같은 트레이스를 플레이그라운드에서 실험해 볼 수 있는 기능은 상당히 유용했습니다. 데이터 사이언스 배경의 팀이라면, 투명성과 통제력을 제공하는 노트북 중심 워크플로가 이상적입니다. 저 역시 이 방식을 선호합니다.
노트북 중심 워크플로를 고려한다면, SDK의 사용 편의성을 꼼꼼히 살펴야 합니다. 결국 문서화 품질과 기존 데이터 도구와의 연동이 핵심입니다.
좋은 도구는 사람을 자동화로 대체하려 하지 않고, 사람의 역할을 강화합니다. 오류 분석은 AI 엔지니어링에서 ROI가 가장 높은 활동이므로, 효율적인 사람의 리뷰를 얼마나 잘 지원하는지가 도구 선택의 핵심입니다. 수동 어노테이션과 오류 분석을 일급 기능으로 지원하는 도구를 우선적으로 고려하세요. 이 글을 쓰는 시점에서, 많은 도구에 아직 빠져 있는 기능 중 하나가 axial coding입니다.
사람의 검증 없이 완전 자동화를 약속하는 기능은 깊이 의심해야 합니다. 겉보기엔 편리하지만, 근거 없는 자신감이라는 위험한 착각을 만들어 낼 수 있습니다. 특히 AI 에이전트가 평가 기준을 직접 만든 뒤 곧바로 점수까지 매기는 기능에 주의하세요. 이런 "추상화의 중첩"은 높은 점수 뒤에 결함을 감추기 일쑤입니다. 통제력과 가시성을 제공하는 도구를 선택하세요.
평가 도구는 우리 스택에 맞춰져야지, 도구의 스택에 우리가 맞춰야 하는 상황이 되어선 안 됩니다. 기존 기술 환경과의 통합 수준을 반드시 확인하세요. 또한 독자적인 DSL은 오히려 마찰을 높일 수 있으니 경계해야 합니다. 마지막으로, 다양한 환경에서 분석할 수 있도록 데이터를 범용 포맷으로 내보내는 기능은 필수입니다.
어떤 도구가 적합한지는 팀의 워크플로, 역량, 그리고 구체적인 요구사항에 따라 달라집니다. 패널이 평가 도구를 검토한 과정을 통해, 여러분이 직접 판단할 때 참고할 만한 프레임워크를 얻으셨길 바랍니다.
저 개인적으로는 이런 도구들을 백엔드 데이터 저장소로 활용하면서, 실제 작업 대부분은 Jupyter 노트북과 직접 만든 어노테이션 인터페이스로 처리하는 편입니다.
아래 내용은 참고 수준으로 받아들이시길 권합니다. 위의 영상을 직접 보시면 우리가 각 기준을 어떻게 적용했는지, 그리고 여러분의 상황에 따라 어떤 부분에서 판단이 달라질 수 있는지 감을 잡으실 수 있습니다.
전반적인 인상 전체 워크플로가 직관적이며, 특히 체계적인 평가 프로세스에 익숙하지 않은 사용자에게 진입 장벽이 낮았습니다. UI가 데이터셋 생성, 실험 실행, 결과 어노테이션까지의 흐름을 자연스럽게 안내합니다.
긍정적인 피드백 / 좋았던 점
개선이 필요한 점
전반적인 인상 패널 전체적으로 Braintrust에 대해 긍정적인 평가를 내렸으며, 깔끔한 UI와 체계적인 평가 접근법을 높이 평가했습니다. 사람이 참여하는 워크플로를 강조하는 점이 큰 강점이었습니다.
긍정적인 피드백 / 좋았던 점
개선이 필요한 점
전반적인 인상 패널은 Phoenix에 대해 전반적으로 긍정적이었으며, 한 패널은 "가장 좋아하는 오픈소스 평가 도구 중 하나"라고 평가했습니다. 개발자 중심의 노트북 기반 플랫폼으로 자리매김하고 있습니다.
긍정적인 피드백 / 좋았던 점
개선이 필요한 점