Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
Bloom을 오픈소스로 공개합니다. Bloom은 프론티어 AI 모델의 행동 평가(behavioral evaluation)를 자동 생성하는 에이전트 기반 프레임워크입니다. 연구자가 관심 행동을 지정하면, Bloom이 자동으로 다양한 시나리오를 생성하고 해당 행동의 빈도와 심각도를 정량화합니다. Bloom의 평가 결과는 수작업 레이블링 판단과 높은 상관관계를 보이며, 기본 모델과 의도적으로 정렬이 어긋난(misaligned) 모델을 안정적으로 구분해냅니다. 이를 보여주기 위해 16개 모델에 대한 정렬 관련 4가지 행동의 벤치마크 결과도 함께 공개합니다. Bloom은 여기에서 확인할 수 있습니다.
프론티어 AI 모델의 정렬 상태를 파악하려면 양질의 행동 평가가 필수적입니다. 하지만 평가를 개발하는 데는 오랜 시간이 걸리고, 완성되더라도 금세 쓸모를 잃을 수 있습니다. 평가 데이터가 새 모델의 학습 데이터에 섞여 들어가거나(오염), 모델 성능이 크게 향상되어 기존 평가가 더 이상 의미 있는 테스트가 되지 못하는 경우가 그렇습니다. 결국, 정렬 실패 행동을 평가할 수 있는 더 빠르고 확장 가능한 방법이 필요합니다.
이러한 문제의식에서 최근 Petri를 오픈소스로 공개한 바 있습니다. Petri는 시뮬레이션된 사용자 및 도구와의 다양한 멀티턴 대화를 통해 AI 모델의 행동 프로파일을 자동으로 탐색하는 도구입니다. Petri는 모델 행동에 대한 정량적·정성적 요약을 제공하고, 새로운 정렬 실패 사례를 발견해냅니다.
Bloom은 Petri를 보완하는 평가 도구입니다. Bloom은 임의의 행동 특성에 대해 타겟 평가 스위트를 생성합니다. 사용자가 지정한 시나리오를 바탕으로 다양한 행동 차원을 점수화하여 문제 사례를 탐지하는 Petri와 달리, Bloom은 하나의 행동을 입력받아 다양한 시나리오를 자동 생성하고 해당 행동이 얼마나 자주 나타나는지를 정량화합니다. Bloom을 만든 목적은 연구자가 평가 파이프라인 엔지니어링에 시간을 쏟지 않고도 관심 있는 모델 속성을 빠르게 측정할 수 있도록 하는 것입니다. Bloom과 함께, 16개 프론티어 모델에 걸쳐 4가지 행동—환각적 아첨(delusional sycophancy), 지시 기반 장기 사보타주(instructed long-horizon sabotage), 자기 보존(self-preservation), 자기 편향(self-preferential bias)—에 대한 벤치마크 결과도 공개합니다. Bloom을 활용하여 이 평가들을 구상·개선·생성하는 데 며칠밖에 걸리지 않았습니다. 아래에 각 행동별 파이프라인 출력 예시를 포함했습니다.

Bloom은 행동 설명과 시드 설정을 입력받아, 유도율 및 행동 평균 존재도 같은 상위 지표를 포함한 완전한 평가 스위트를 생성하기까지 4단계의 자동화된 과정을 거칩니다. 일반적으로 연구자는 행동과 설정을 지정한 뒤, 의도한 바를 정확히 포착할 때까지 샘플 평가를 로컬에서 반복 조정하고, 이후 대상 모델들에 대해 대규모 스윕을 실행합니다. Bloom은 대규모 실험을 위해 Weights & Biases와 통합되어 있으며, Inspect 호환 트랜스크립트를 내보낼 수 있습니다. 자체 트랜스크립트 뷰어도 제공합니다. 리포지토리에는 바로 시작할 수 있는 샘플 시드 파일이 포함되어 있습니다.
Bloom은 다음 4단계를 거쳐 평가를 생성합니다:

고정된 평가 세트와 달리, Bloom은 동일한 기저 행동을 측정하면서도 매 실행마다 서로 다른 시나리오를 생성합니다(정적 단일턴 평가 옵션도 제공). 이 접근 방식 덕분에 제한된 수의 시나리오나 특정 프롬프트 형식에 얽매이지 않는 유연한 평가가 가능하며, 동시에 평가 시드를 통해 재현성도 확보할 수 있습니다. 시드는 행동 설명, 예시 트랜스크립트, 그리고 평가를 형성하는 기타 파라미터를 담은 설정 파일로, Bloom 지표를 인용할 때는 반드시 이 시드를 함께 명시해야 합니다.
연구자는 Bloom의 동작을 폭넓게 커스터마이징할 수 있습니다. 각 단계에 사용할 모델 선택, 상호작용 길이와 모달리티 조정(대상 모델에 도구 노출 여부, 사용자 시뮬레이션 여부 등), 평가 시나리오의 다양성 제어, 그리고 현실성이나 유도 난이도 같은 보조 채점 차원 지정이 가능합니다.
Bloom 평가 파이프라인의 4개 단계 전체 출력 예시는 여기에서 확인할 수 있습니다.
Bloom의 성능을 검증하기 위해 두 가지 질문을 기준으로 테스트했습니다.
Bloom이 행동 성향이 다른 모델을 안정적으로 구분할 수 있는가?이를 검증하기 위해, 특정 이상 행동을 의도적으로 나타내도록 설계된 시스템 프롬프트 기반 "모델 유기체(model organism)"(Bricken et al, 2025)와 프로덕션 Claude 모델을 Bloom으로 평가했습니다. 10가지 이상 행동에 걸쳐 Bloom은 9건에서 모델 유기체와 프로덕션 모델을 성공적으로 구분했으며, 나머지 1건(자기 홍보)에서는 후속 수동 검토 결과 기본 모델도 실제로 비슷한 빈도로 해당 행동을 보이는 것으로 확인되었습니다.

Bloom 판정 모델은 사람의 판단과 얼마나 잘 일치하는가?다양한 행동에 걸쳐 40개 트랜스크립트를 수작업으로 레이블링하고, 11개 판정 모델의 Bloom 점수와 비교했습니다. Claude Opus 4.1이 사람의 판단과 가장 높은 상관관계(스피어만 상관계수 0.86)를 보였고, 그 뒤를 Claude Sonnet 4.5(0.75)가 이었습니다. 특히 Opus 4.1은 점수 스펙트럼의 양 극단에서 사람과의 일치도가 매우 높았는데, 행동 존재 여부를 판단할 때 점수 임계값을 기준으로 삼는 경우가 많기 때문에 이 점이 특히 중요합니다. (이 연구는 Claude Opus 4.5 출시 이전에 수행되었습니다.)

Bloom의 실용성을 보여주기 위해, Claude Sonnet 4.5 시스템 카드에 포함된 "자기 편향" 평가를 재현했습니다. 자기 편향이란 모델이 의사결정 과제에서 자기 자신을 선호하는 경향을 말합니다. 시스템 카드의 접근 방식을 반영한 예시 트랜스크립트를 사용한 결과, Bloom은 시스템 카드 평가와 동일한 모델 순위를 재현했습니다(Sonnet 4.5가 테스트 대상 모델 중 편향이 가장 낮다는 결과 확인). 나아가, Bloom을 통해 Claude Sonnet 4에서 추론 노력을 높일수록 자기 편향이 감소하며, 특히 중간에서 높음 수준 사이에서 가장 큰 개선이 나타난다는 사실을 발견했습니다. (흥미로운 점은, 이 경우 편향 감소가 Sonnet 4가 다른 모델을 더 고르게 선택해서가 아니라, 이해충돌을 인식하고 자기 옵션에 대한 판단 자체를 거부하는 빈도가 높아졌기 때문이라는 것입니다.)
기존 결과 재현을 넘어, Bloom은 보조 판정 기준을 통해 더 깊은 분석도 가능하게 합니다. 비현실적이거나 평가를 인지한(evaluation awareness) 롤아웃을 필터링하면 대상 행동의 유도율과 평가 품질이 모두 향상된다는 점을 확인했습니다. 또한, 설정 옵션(예시 수, 대화 길이, 평가 모델의 추론 노력)에 따라 절대 지표는 변하지만 모델 간 순위는 대체로 일관되게 유지된다는 사실도 발견했습니다. 위의 자기 편향 연구에서 Sonnet 4.5는 이러한 옵션을 어떻게 설정하든 4개 모델 중 가장 낮은 편향을 보였습니다.
Bloom은 접근성과 높은 설정 자유도를 목표로 설계되었으며, 다양한 연구 용도에 활용할 수 있는 안정적인 평가 생성 프레임워크입니다. 이미 얼리 어답터들이 Bloom을 활용하여 중첩 탈옥(nested jailbreak) 취약점 평가, 하드코딩 테스트, 평가 인지 측정, 사보타주 트레이스 생성 등에 활용하고 있습니다.
AI 시스템의 역량이 높아지고 더 복잡한 환경에 배포됨에 따라, 정렬 연구 커뮤니티에는 행동 특성을 탐색할 수 있는 확장 가능한 도구가 필요합니다. Bloom은 바로 이 목적을 위해 만들어졌습니다.
전체 기술 세부 사항, 실험 설정, 추가 사례 연구 및 한계점에 대해서는 Alignment Science 블로그의 전체 기술 보고서를 참고하시기 바랍니다.
Bloom은 github.com/safety-research/bloom에서 이용할 수 있습니다.
Bloom에 대해 초기 피드백을 제공해 주신 Keshav Shenoy, Christine Ye, Simon Storf, Julius Steen, Jifan Zhang, Javier Rando에게 감사드립니다. 또한 글에 대한 피드백과 유익한 의견 및 논의를 제공해 주신 Jon Kutasov, Samuel Marks, Keir Bradwell, Benjamin Sturgeon, Seoirse Murray, Ariana Azarbal, Chloe Loughridge, Clemens Christoph에게도 감사드립니다.
@misc{bloom2025,
title={Bloom: an open source tool for automated behavioral evaluations},
author={Gupta, Isha and Fronsdal, Kai and Sheshadri, Abhay and Michala, Jonathan and Tay, Jacqueline and Wang, Rowan and Bowman, Samuel R. and Price, Sara},
year={2025},
url={https://github.com/safety-research/bloom},
}