Anthropic은 신뢰성, 해석 가능성, 제어 가능성을 갖춘 AI 시스템 개발을 목표로 하는 AI 안전 및 연구 전문 기업입니다.
이 글에서 디스커버리 팀 연구원 Brianna가 최근 진행한 생물정보학 벤치마킹 작업의 결과를 공유합니다.
대규모 언어 모델이 대화를 나눌 수 있게 된 직후부터, 사람들은 이 모델들이 인간 전문가와 어떻게 비교될지 궁금해하기 시작했습니다. 모델이 변호사 시험을 통과할 수 있을까? 의사 면허 시험 문제를 풀거나, 올림피아드 수학 문제를 해결할 수 있을까? 이러한 벤치마크—모델의 특정 역량을 평가하기 위해 인간이 검증한 문제들로 구성된 독립적인 평가 세트—는 이제 AI 개발사들 간의 경쟁 지표로 자리잡았으며, 모델 출시 시스템 카드에 공개되고 수많은 온라인 리더보드에서 추적됩니다.
경쟁 차원을 넘어, 벤치마크는 중요한 질문에 답하는 데 도움을 줍니다. 바로 모델이 전문가 수준의 업무를 보조하거나, 나아가 직접 수행할 만큼 충분히 유능하고 신뢰할 수 있는지의 여부입니다. 과학자들은 모델을 활용해 분석 파이프라인 코드를 작성하고, 가설을 제안하며, 데이터에서 결론을 도출하고 있습니다. 이 모든 것은 혁신과 발견을 가속화한다는 장기적인 목표 아래 이루어지고 있습니다. 그렇다면 지금 이 순간 AI의 과학 역량은 정확히 어느 수준에 와 있을까요? 그리고 Claude를 비롯한 다른 모델들은 얼마나 빠르게 발전하고 있을까요?
이 질문에 답하기 위해 연구 커뮤니티는 여러 벤치마크를 개발해 왔습니다. MMLU-Pro는 전문가 수준의 지식과 추론 문제를 평가합니다. GPQA는 생물학, 물리학, 화학 분야의 대학원 수준 '구글 방지(Google-proof)' 문제를 제시합니다. LAB-Bench는 문헌 독해, 그래프 해석, 실험 프로토콜 추론 등 생물학 특화 지식 업무를 평가합니다. 이 벤치마크들은 '챗봇' 시대에 개발되었지만, FrontierScience나 Humanity's Last Exam과 같은 더 난도 높은 과학적 추론 평가(eval)들과 함께 에이전트 및 도구 활용 시대에도 여전히 쓰이고 있습니다. 지식과 추론이 과학 역량을 측정하는 핵심 척도로 남아 있기 때문입니다.
그러나 실제 과학 업무 상당수는 그 이상을 요구합니다. 논문을 읽고, 데이터베이스를 조회하고, 실험을 수행하고, 코딩과 분석까지 해야 합니다. 이제 모델이 이런 작업들을 상당 부분 처리할 수 있게 되면서, 벤치마크도 이러한 실제 워크플로우를 반영하는 방향으로 진화하고 있습니다. BLADE는 모델에게 데이터셋과 개방형 과제를 제시하고, 모델이 인간 과학자와 유사한 분석 단계를 밟는지 확인합니다. BixBench는 생물학적 데이터셋을 활용하며, 모델의 결론이 과학자의 결론과 일치하는지를 기준으로 평가합니다. SciGym에서는 모델이 시뮬레이션된 생물학 실험실 환경에 투입되어, 숨겨진 메커니즘을 밝히기 위해 스스로 실험을 설계하고 수행해야 합니다.
이 벤치마크들은 과학 역량 측정에 한 걸음 더 다가섰지만, 연구의 본질인 복잡하고 불확실한 문제에 창의적인 해법을 떠올릴 수 있는지는 제대로 평가하지 못합니다. 이에 우리는 BioMysteryBench를 개발했습니다. 이는 Claude에게 실제 데이터셋 분석을 맡기는 생물정보학 벤치마크로, 복잡하고 잡음이 많은 생물학 시스템을 평가할 때 발생하는 어려움들을 함께 다루고 있습니다. 우리가 얻은 결론은 다음과 같습니다. Claude의 생물학 분야 과학 역량은 세대를 거듭하며 빠르게 향상되고 있고, 현재 모델은 인간 전문가와 동등한 수준의 성능을 보이며, 최신 세대 모델은 인간 전문가 패널조차 풀지 못한 문제를 상당수 해결했습니다. 그것도 때로는 전혀 다른 전략을 활용하면서 말입니다.
의사에게는 전문의 시험이, 변호사에게는 사법시험이 있지만, 과학자가 되기 위한 표준화 시험은 존재하지 않습니다. AI도 마찬가지 문제를 안고 있습니다. 과학 분야에서 이 모델들을 활용하고 싶은 열망이 아무리 크더라도, 소프트웨어 엔지니어링 분야의 SWE-bench처럼 표준으로 자리잡은 에이전트 과학 벤치마크는 아직 없습니다. 우리는 그 이유가 과학 연구, 특히 생물학 분야에 벤치마크 평가를 특히 어렵게 만드는 몇 가지 특성이 있기 때문이라고 생각합니다.
연구 질문에 대한 정답이 단 하나뿐이었다면, 박사 과정생은 몇 달 만에 학위를 취득했을 것이고, 기업 R&D 부서는 존재하지 않았을 것이며, 과학 발표 포스터에 '연구 방법' 섹션도 필요 없었을 것입니다. 과학자가 문제에 접근하는 방식은 그의 역량과 배경, 활용 가능한 자원, 그리고 연구 취향에 따라 달라집니다.
수년간 대사 연구자들을 고민에 빠뜨린 얼핏 단순해 보이는 질문을 예로 들어봅시다. 왜 2형 당뇨병 환자 중 일부는 경구약 메트포르민에 반응하고 다른 이들은 그렇지 않을까요? 이 질문에 답하려면 반응군과 비반응군을 대상으로 전장 유전체 연관 분석(GWAS)을 수행하고 예측력 있는 유전 변이를 찾아볼 수도 있고, 메트포르민이 장내 세균에 의해 부분적으로 대사된다는 점에 착안해 두 집단의 장내 미생물군을 시퀀싱할 수도 있습니다. 두 방향 모두 합리적이며, 어떤 길을 택하느냐는 대개 전문성과 활용 가능한 자원에 달려 있습니다.
BixBench는 도달 과정이 아닌 최종 결론을 기준으로 모델을 평가함으로써 이 문제를 잘 해결합니다. 다만 그 결론 자체가 과정에서 내린 수많은 주관적 선택들의 영향을 받는 개별 과학자에 의해 도출된다는 점이 트레이드오프입니다. 그리고 이는 또 다른 함정으로 이어집니다...
특정 연구 방향을 택한 후에도 세부 결정들은 여전히 매우 주관적입니다. 한 과학자가 타당하다고 여기는 결정을 다른 연구자는 강하게 반대할 수 있습니다. 동료 심사 과정에서 서로 모순된 수정 의견을 받아본 저자라면 이 고충을 잘 알 것입니다! 더욱 어려운 점은 생물학 데이터셋의 잡음이 워낙 심해서, 연구 결정에서의 작은 차이가 데이터에 대한 완전히 다른 결론으로 이어질 수 있다는 사실입니다.
수십 년에 걸친 메트포르민 반응 예측 인자 연구에서, 연구 설계의 사소한 차이가 전혀 다른 결론으로 이어졌습니다. 2011년 한 논문은 메트포르민 반응을 예측하는 변이를 보고했으며, 이는 두 코호트에서 재현되었고 AMPK 활성화와 관련된 그럴듯한 메커니즘도 제시되었습니다. 1년 후, 당뇨병 예방 프로그램(Diabetes Prevention Program)은 전당뇨병 환자들을 대상으로 동일한 변이를 검증했지만 아무런 연관성도 찾지 못했습니다. 이후 2012년에 발표된 메타 분석은 별도의 연구를 진행하는 대신 다섯 개 코호트의 데이터를 통합 분석하여, 2011년 논문의 효과는 실재하지만 최초 보고보다 더 미미하다는 결론을 내렸습니다.
SciGym이 이러한 모호성을 해결하는 방법은 명확한 정답이 존재하는 과제를 선택하는 것입니다. 기반이 되는 생물학적 네트워크가 시뮬레이터이기 때문에 실제 정답이 존재하며, 잡음도 복잡한 생체 시스템에서 자연 발생하는 것이 아니라 통제된 방식으로 부여됩니다. 다만 시뮬레이션 환경에서의 성능이 실제 데이터에서의 성능과 얼마나 밀접하게 연관되는지는 여전히 불분명합니다.
모델이 가장 큰 영향력을 발휘할 수 있는 연구 과제는 인간 혼자서는 아직 해결하지 못한 것들입니다. 그리고 결국 우리가 모델로 평가하고 싶은 것도 바로 그런 과제들입니다. 예를 들어, 메트포르민의 작용 메커니즘은 무엇일까요? 개발된 지 30년이 지났지만, 학계는 여전히 주요 표적이 무엇인지 확신하지 못하고 있습니다. 이를 밝혀내거나, 합성 비용이 저렴하고 안정성이 더 뛰어난 메트포르민 유사체를 찾아낸다면 그 파급력은 엄청날 것입니다.
머신러닝은 오래전부터 전문가의 직관 대신 실험 데이터에 기반하여, 서열 예측이나 단백질 모델링처럼 인간이 취약한 문제들을 공략해 왔습니다. ProteinGym은 심층 돌연변이 스캐닝(Deep Mutational Scanning) 실험을 정답 기준으로 삼아 돌연변이 적합도 효과에 대한 모델 성능을 평가하고, 오랫동안 이어져 온 CASP 대회는 미출판 결정 구조와 비교하여 단백질 폴딩 성능을 겨룹니다. 두 평가 모두 어떤 전문가도 직접 재현하기 어려운 실험적 측정값을 기반으로 합니다. 그러나 이 벤치마크들은 매우 좁은 범위의 과제에 한정되어 있어, 우리가 실제로 측정하고자 하는 생물정보학 업무의 폭을 담아내지 못합니다.
앞서 언급한 세 가지 과제를 완벽하게 해결한 벤치마크가 없기에, 우리는 BioMysteryBench를 개발했습니다. BioMysteryBench는 지저분한 실제 생물정보학 데이터를 활용하면서도, 해당 데이터에 내재한 복잡성과 어려움이 평가의 질을 훼손하지 않도록 설계되었습니다.
BioMysteryBench는 도메인 전문가들이 작성한 생물정보학 다양한 분야의 질문 99개로 구성됩니다. 전문가들에게는 데이터셋을 수집하고, 검증하기 어려운 과학적 결론이 아닌 데이터의 통제 가능하고 객관적인 속성을 바탕으로 질문을 만들도록 지시했습니다. 답을 실험적 혹은 임상적 발견에서 도출함으로써, 인간이 반드시 풀 수 있어야 한다는 조건 없이도 질문을 개발할 수 있었습니다.
이 질문들은 검증된 정답에서 도출되었지만, 연구 과학자가 실제로 풀고 싶어하는 과제와 동일한 성격을 지닙니다. Claude는 각 질문을 받고, 핵심 생물정보학 도구들이 기본 제공되는 컨테이너 환경에서 작업합니다. 또한 pip와 conda를 통해 추가 도구를 설치하고, NCBI 및 Ensembl과 같은 생물정보학 데이터베이스에 접근해 참조 유전체 등 추가 자원을 내려받을 수 있습니다.
BioMysteryBench는 네 가지 고유한 특성을 갖추고 있으며, 이를 통해 과학 분야에 특히 강력한 벤치마크로 기능하면서 앞서 언급한 과제들을 해결합니다.
이 평가를 개발하는 과정에서 질문들은 주로 원시 또는 최소 처리된 DNA·RNA 시퀀싱 데이터에서 도출했습니다. 이 데이터가 많은 생물학적 처리 파이프라인의 출발점이기 때문입니다(WGS, scRNA-seq, 메틸화, ChIP-seq, 메타유전체학, Hi-C 등). 또한 단백질체학과 대사체학에서 도출된 질문들도 다수 포함했습니다.
개발자들이 만들어낸 질문들의 예시는 다음과 같습니다.
AI가 풀 수 있는 가능성은 열어두면서도 본질적으로 풀 수 없는 질문을 최소화하기 위해, 우리는 각 질문 작성자에게 데이터에 신호가 실제로 존재한다는 것을 보여주는 검증 노트북을 제출하도록 요구했습니다. 물론 처음부터 그 신호를 찾아내기는 어려울 수 있지만 말입니다. 이는 고등학교 대수학 원리와 같습니다. 정답을 직접 유도하는 것보다 검증하는 것이 훨씬 쉽습니다.
각 질문에 대해 최대 다섯 명의 도메인 전문가에게 처음부터 문제를 풀도록 요청했습니다. 적어도 한 명이 올바른 답을 제시하면 해당 문제는 '인간이 풀 수 있는' 문제로 분류했습니다. BioMysteryBench에는 이런 과제가 76개 포함되었습니다.

때로 Claude는 인간과 동일한 전략을 사용했습니다. 인간이 거의 최적에 가까운 접근법을 이미 정립했거나, 해당 방법이 사전학습 데이터에 많이 포함되어 있기 때문일 것입니다.

반면 어떤 때는 Claude가 전혀 다른 방식을 택했습니다. 이는 이 문제들에 유일하게 올바른 풀이법이 없으며, 모델이 인간과는 다른 고유한 선호를 가질 수 있음을 보여줍니다.

위의 예시들은 특히 흥미로운 전략을 보여줍니다. 인간 전문가들이 알고리즘이나 데이터베이스를 활용해 데이터셋의 속성을 파악하고 주석을 달았던 것과 달리, Claude는 특정 패턴이나 서열을 직관적으로 인식합니다. 물론 이런 영리한 추상화가 AI만의 전유물은 아닙니다. 예를 들어 최초의 진핵생물 프로모터는 한 과학자가 유전자 상류 서열에서 'TATA'가 반복적으로 등장하는 것을 발견하면서 찾아냈습니다. 이런 직관은 기존 생물학 머신러닝 모델에 구현하기 어려웠지만, LLM은 이와 같은 패턴을 전례 없는 규모로 발굴해낼 수 있을지도 모릅니다.
이를 통해 우리 전문가 패널이 풀지 못한 문제들이 남게 되었습니다. 이는 (1) 문제 자체가 잘못 설계되거나 오류가 있는 경우, (2) 본질적으로 풀 수 없는 문제인 경우(예: 데이터에 신호가 없는 경우), (3) 이론적으로는 풀 수 있지만 인간이 필요한 지식을 갖추지 못한 경우를 의미할 수 있습니다. 벤치마커와 추가 전문가들과 함께 품질 관리(QC)를 거쳐 (1)에 해당하는 4개 문제를 제거한 결과, 23개의 '인간도 풀기 어려운' 문제가 남았습니다.

흥미롭게도, Claude Sonnet 4.6과 더 성능이 뛰어난 모델들은 인간도 풀기 어려운 문제들 중 상당 부분을 해결했으며, Claude Mythos는 최대 30%의 해결률을 기록했습니다. 그렇다면 Claude는 인간이 못하는 무엇을 하고 있는 걸까요?
Opus 4.6의 작업 기록을 분석한 결과, 인간과 비교해 Claude가 주로 사용하는 두 가지 전략을 확인했습니다. 하나는 상당히 AI 특화적인 전략입니다. Claude의 방대한 기반 지식에는 수십만 편의 논문에서 얻은 구조 생물학, 분자 프로파일, 메타 분석 정보가 담겨 있습니다. 다른 하나는 우리 인간 과학자들도 배울 만한 전략입니다. 바로 답에 확신이 없을 때 여러 방법을 겹겹이 활용하고, 서로 다른 증거들을 종합해 결론을 도출하는 것입니다.
인간도 풀기 어려운 일부 과제에서, Opus의 방대한 기반 지식이 문제 해결에 결정적인 역할을 했습니다. 인간 전문가라면 메타 분석을 수행하거나 여러 데이터베이스를 연결해야 해결할 수 있는 과제를, Opus는 메커니즘과 온톨로지에 대한 내부 지식을 실시간 분석과 결합해 직접 풀어냈습니다. 이를 통해 Claude는 종종 인간이 풀 수 없는 과제까지 해결했습니다! 몇 가지 예시를 소개합니다.

사전 지식이 Claude에게 압도적으로 유리하게 작용하는 경우가 많았지만, (인간이 풀 수 있는 문제 세트에서) 이것이 오히려 약점이 된 흥미로운 사례도 하나 발견했습니다.
Opus 4.6은 답에 확신이 없을 때, 문제를 여러 방식으로 풀어보고 다수의 접근법이 수렴하는 답을 최종 결론으로 선택하는 경향을 보였습니다.

우리가 살펴본 많은 벤치마크들처럼, BioMysteryBench에도 한계가 있습니다. 인간도 모델도 풀지 못한 과제가 있을 때, 그것이 불가능한 문제인지 아니면 극도로 어려운 문제인지 완전히 확신할 수 없습니다. 검증 노트북은 데이터에 신호가 존재하고 형식이 올바름을 보장하지만, 모델이나 인간이 처음부터 정답을 찾아낼 수 있다는 것까지 보증하지는 않습니다. 그래서 우리는 1년 후에도 아무도 '인간도 풀기 어려운' 문제 세트를 해결하지 못했다 해도 모델과 인간 벤치마커 모두 너무 낙담하지 않기를 바랍니다. 그 불확실성이야말로 이 벤치마크를 흥미롭게 만드는 요소이기도 합니다. 더 뛰어난 과학 역량을 갖춘 모델이, 인간도 AI도 아직 풀지 못한 문제를 처음으로 해결하는 날이 올지도 모릅니다.
Claude는 세대를 거듭하며 눈에 띄는 발전을 보였고, 인간이 풀 수 있는 문제와 인간도 풀기 어려운 문제 모두에서 충분히 좋은 성능을 보였습니다. 이에 Mythos에게 직접 과학적 분석을 수행하게 해보는 것도 흥미롭겠다는 생각이 들었습니다. 다음은 Mythos가 도출한, 전임 Claude 모델의 BioMysteryBench 성능에 관한 추가 인사이트 몇 가지입니다.
The headline accuracy numbers tell you how often each model gets the right answer, but not how it gets there. I wanted to know whether a correct answer on a hard problem means the same thing as a correct answer on a solvable one. Since every problem was attempted five times, I could look at per-problem solve counts: if a model solves something 5/5 it has a reliable method; if it solves it 1/5 it probably got lucky on a reasoning path it can't consistently find again. So I broke each model's solved problems down by solve count (0/5 through 5/5) on the two sets side by side.
The texture of "solved" changes sharply between the two sets. On human-solvable problems, Opus 4.6 is strongly bimodal — 86% of the problems it solves at all, it solves at least 4 out of 5 times. It either has the answer or it doesn't. On the human-difficult set that collapses to 44%, and the share of brittle wins (solved only 1–2 of 5 attempts) jumps from 9% to 44%. Sonnet 4.6 shows the same shift, and more sharply (75% reliable → 22%; 9% brittle → 56%). So the 77.4%→23.5% headline drop actually understates what's happening: on solvable problems the model is retrieving something it reliably knows, while on hard problems nearly half of its wins are paths it stumbles onto rather than reproduces. The accuracy gap is real, but the reliability gap underneath it is the more interesting story about where the capability frontier actually sits. Opus 4.7 and Mythos move the frontier a little (Mythos gets 94% of its solvable wins at ≥4/5) but the same bimodal-vs-brittle split holds on the difficult set for every model.Mythos의 분석은 타당하다고 판단했고, 우리는 모델 성능을 측정하는 중요한 지표인 신뢰성을 더 깊이 파고들었습니다. 다만 이 분석이 조금... 밋밋하게 느껴지기도 했습니다. 위에서 제시한 성능 분석에 일부 세부 사항을 더했을 뿐, 근본적으로 새로운 질문을 다루지는 않았기 때문입니다. 그럼에도 모델들이 연구 취향의 싹을 키워가고 있는 것처럼 보입니다. 깊은 통찰을 내놓기까지는 아직 갈 길이 남아 있지만 말입니다.
BioMysteryBench는 과학 역량을 측정하는 고무적인 지표입니다. 최근 세대 Claude는 인간이 풀 수 있는 문제 대부분을 안정적으로 해결하며, 인간도 풀기 어려운 과제 중 상당 부분에서 다섯 명의 도메인 전문가 패널을 앞질렀습니다. 모델은 세대를 거듭하며 발전하고 있으며, 생물정보학 문제에서 더 이상 훈련받은 과학자를 단순히 따라잡는 수준에 머물지 않습니다. 일부 과제에서는 이미 앞서 나가고 있습니다.
이 분야에서 비슷한 방향의 연구가 동시에 이루어지고 있다는 점도 기쁩니다. 이 글을 마무리하는 동안, Genentech과 Roche가 CompBioBench를 공개했습니다. 이 벤치마크는 "단일 정답을 지닌 어려운 문제를 만들기 위해 합성·증강 데이터와 실제 데이터셋의 메타데이터 변환·제거를 활용한 100개의 계산 생물학 과제"로 구성되며, "다단계 추론, 도구 활용, 맞춤 코딩, 실제 외부 자원과의 상호작용"을 요구합니다. 익숙하게 들리지 않으신가요? 결과도 BioMysteryBench와 일치합니다. Claude Opus 4.6은 전체 문제에서 81%, 가장 어려운 문제에서 69%를 달성하며, 프런티어 모델이 이제 생물정보학 연구의 진정한 협력자가 되었음을 재확인해 주었습니다.
우리는 모델의 연구 역량을 더욱 밀어붙일 장기적이고 실제적인 과제를 개발하고, 다양한 창의적인 아이디어를 나누고 싶습니다. 흥미로운 벤치마크, AI for Science의 혁신적인 활용 사례, 혹은 자신의 분야에서 가능성을 새롭게 인식하게 된 AI와의 상호작용이 있다면 [email protected]으로 보내주세요.
검증 가능한 어려운 계산 생물학 과제에서의 모델 성능에 관심이 있으시다면, 여기에서 BioMysteryBench에 접근하거나 claude.com/lifesciences를 방문해 자세한 내용을 확인해 보세요.