Anthropic은 세계적인 합성·계산·분석 화학자들과 협력해 Claude의 화학 역량을 높이는 작업을 진행 중입니다. 이번 포스트에서는 그 첫 번째 결과물을 공개합니다. Anthropic 소속 화학자 David Kamber가 화학자들이 가장 빈번하게 다루는 분석 데이터인 NMR 스펙트럼을 Claude가 얼마나 잘 해석해내는지 직접 검토했습니다.화학자들은 분자를 다룰 때 화이트보드의 손 그림 구조식, 측정 장비 출력값, 데이터베이스 검색 문자열, 특허 및 논문의 전문 표기법 사이를 수시로 넘나듭니다. 이 표현 방식들은 모두 동일한 화학적 실체를 담고 있지만, 각각 다른 종류의 이해와 숙련을 요구합니다. 예를 들어, 카페인을 손으로 그린 구조식을 보면 화학자는 인체의 졸음 신호인 아데노신과의 유사성을 직관적으로 파악하고, 카페인이 해당 수용체를 차단함으로써 각성 효과를 낸다고 예측할 수 있습니다. 그러나 바로 그 구조식만으로는 카페인을 형태가 거의 비슷한 다른 분자들과 구별하기가 어렵습니다.
화학자가 다루는 분자의 정체를 정확히 아는 것은 매우 중요한 일입니다. 화학은 우리가 섭취하는 음식과 의약품부터 로션, 페인트, 플라스틱에 이르기까지 모든 것의 토대를 이루고 있습니다. 같은 원자들 사이의 결합을 몇 개만 바꿔도 포도당이 과당이 됩니다. 분자식은 같지만 전혀 다른 대사 경로를 거치는 분자들입니다. 분자를 거울상으로 뒤집으면 진정제가 기형 유발 물질로 바뀌기도 합니다. 탈리도마이드 사건이 바로 그런 경우입니다.1 화학자들은 주어진 작업에 맞는 표현 방식을 선택해 이러한 신호들을 정확히 읽어내는 능력에 의존해 일상적인 연구를 수행합니다.
표현 방식들 사이를 오가는 작업—그림에서 구조를 추적하거나, 기기 출력값과 예상 생성물을 대조하거나, 적절한 표기법으로 데이터베이스를 검색하는 일—은 시간이 많이 걸리고, 방대한 규모에서는 따라잡기가 사실상 불가능합니다. 세계 최대 화학 물질 데이터베이스인 CAS는 현재 2억 9천만 종 이상의 공개 물질을 등록하고 있으며, 매일 약 1만 5천 종씩 늘어나고 있습니다.
AI는 이러한 연구 부담을 덜어줄 좋은 위치에 있지만, 화학 분야에서는 아직 대부분 기대에 그치고 있습니다. 머신러닝 도구들은 오랫동안 역합성(retrosynthesis)—목표 분자에서 거꾸로 거슬러 올라가 더 단순한 전구체를 찾아 합성 경로를 설계하는 과정—과 반응 예측, 물성 추정에 혁신을 가져올 것으로 기대를 모았습니다. 그러나 이 도구들이 필요로 하는 데이터는 구하기 어려웠습니다. 음성 결과(null-results)는 거의 기록되지 않고, 형식은 제각각이며, 구독 학술지의 유료 장벽 뒤에 갇혀 있거나 체계적으로 정리되지 않은 보충 자료 형태로 남아 있습니다. 역합성이 단적인 예입니다. 유능한 AI 도구들이 수년 전부터 존재했음에도 도입은 더디고, 일반적인 학술 연구자나 소규모 실험실 화학자들은 여전히 이를 활용하지 않고 있습니다.
그럼에도 AI의 발전은 마침내 화학 분야에도 가시적인 변화를 만들어내고 있습니다. 오늘날의 최전선 모델들은 멀티모달 기능과 명시적 추론 능력을 갖추고 있습니다. 미리 구축된 분자 데이터베이스에 의존하지 않고, 논문 그림이나 손 스케치에서 직접 화학 구조를 읽어낼 수 있습니다. 실제 출판된 그대로의 실험 방법 섹션이나 보충 자료도 해석할 수 있습니다. 또한 추론 과정을 단계별로 보여주기 때문에 화학자가 출력 결과를 검토하고 검증할 수 있습니다. 이것이 분야가 수년간 지적해온 데이터 문제를 없애주지는 않지만, 그 문제에도 불구하고 다룰 수 있는 문제의 범위를 바꿔놓습니다.
우리의 주장은 소박한 수준입니다. Claude는 화학자들의 판단을 보완하는 일상적인 번역·검색·통합 작업에서 의미 있는 도움을 제공하기 시작했으며, 앞으로도 이 유용성을 지속적으로 확장할 계획입니다. 오늘은 이 작업을 가속화하기 위한 첫 번째 백서를 공개합니다. 이 백서는 화학자들이 가장 빈번하게 다루는 분석 데이터인 NMR 스펙트럼을 주제로 합니다.
전체 버전은 여기에서 확인하실 수 있습니다
오늘날 존재하는 거의 모든 소분자—의약품, 농약, 염료, 향료, 고분자, DNA 또는 단백질 서브유닛, 기능성 무기물 및 고체 재료—는 화학자가 그 구조를 규명해낸 결과물입니다. 이 분자들은 현미경으로 볼 수 없기 때문에, 화학자들은 분자에 빛이나 라디오파, 자기장을 쬐어 반응을 관찰하는 분광 분석에 의존합니다. 특정 분자가 이 에너지를 흡수하고 방출하며 굴절시키는 방식이 패턴, 즉 스펙트럼을 만들어내고, 화학자는 이를 통해 구조를 해석합니다.
NMR 분광법은 화학자들이 이를 위해 가장 널리 사용하는 핵심 기법 중 하나로, 합성 화학에서 가장 시간이 많이 걸리는 단계이기도 합니다. 화합물마다 화학자가 스펙트럼의 각 피크를 제안된 구조의 각 원자에 수작업으로 대응시켜야 하기 때문입니다. 이번 백서에서는 Claude가 현재 화학자들이 실제로 사용하는 전용 NMR 소프트웨어와 어떻게 비교되는지 평가했습니다. 훈련 데이터 편향을 피하기 위해 모델의 훈련 데이터 기준일 이후에 발표된 합성 화학 프리프린트에서 가져온 20개 화합물을 대상으로 Claude 3가지 모델(Opus 4.7, Opus 4.6, Sonnet 4.6)을 ChemDraw 및 MestReNova와 비교했습니다. ChemDraw와 MestReNova는 모두 순방향 예측, 즉 그려진 구조에서 생성될 NMR 스펙트럼을 시뮬레이션하는 방식으로 작동합니다. 순방향 예측 외에도, Claude가 반대 방향—실험적으로 측정된 스펙트럼을 출발점으로 삼아 그 이면의 구조를 제안하는 것—을 해낼 수 있는지도 평가하고자 했습니다. 이는 더 어려운 과제이며, 기존 소프트웨어가 여전히 화학자에게 일임하는 부분입니다.
평가를 설계하기 위해 모델의 훈련 데이터 기준일 이후에 게시된 ChemRxiv 프리프린트2에서 20개 화합물을 선정했습니다. 각 논문의 첫 번째 완전 특성화 신규 분자를 기준으로 삼았습니다. 선정된 20개 화합물은 4가지 구조적 계열(structural family)로 나뉘며, 각 계열당 5개 화합물로 구성됩니다. 각 계열은 서로 다른 NMR 해석상의 난제를 포함하고 있어 선정했습니다. 모든 도구에는 화학자들이 분자를 소프트웨어에 입력할 때 사용하는 텍스트 기반 표기법인 SMILES 문자열로 인코딩된 구조가 주어졌으며, 1D NMR 스펙트럼(화학적 이동을 ppm 단위로 나타내는 수평축)에서 수소 및 탄소 피크의 위치를 예측하도록 요청했습니다. NMR 시료는 액체에 용해된 상태로 측정하기 때문에, 사용하는 용매(클로로포름, DMSO 등)에 따라 피크 위치가 미세하게 달라집니다. 따라서 각 도구에는 연구자들이 해당 논문에서 실제로 사용한 용매 조건에서 스펙트럼을 예측하도록 지시했습니다.

언어 모델의 출력은 실행마다 달라질 수 있기 때문에, 각 Claude 모델은 화합물당 3회 질의하여 결과를 평균냈습니다. ChemDraw와 MestReNova는 동일한 입력에 항상 같은 답을 반환하므로 1회만 실행했습니다. 이후 각 예측 피크와 실험값을 대응시켜 ppm 단위의 오차를 측정했습니다. 허용 기준은 화학자가 '정확하다'고 판단하는 범위, 즉 수소의 경우 ±0.20 ppm, 탄소의 경우 ±1.0 ppm으로 설정했습니다.

수소 예측에서는 Opus 4.7이 가장 높은 정확도를 보였습니다. 평균 오차 ±0.079 ppm으로 허용 기준의 절반에도 미치지 않았고, 허용 범위 내에 위치한 피크 비율도 가장 높았습니다. 탄소 예측에서는 Opus 4.7과 MestReNova가 각각 ±1.37 ppm, ±1.48 ppm으로 사실상 동등한 성능을 보였으며, 나머지 도구들의 순위는 두 원소 모두에서 동일했습니다. Opus 4.6은 예상대로 중간 수준이었고, Sonnet 4.6이 가장 낮은 성능을 보였습니다. 이 차이는 클로로피리다진 계열에서 난이도가 높기로 알려진 수소 하나—실제 위치가 6.8~7.9 ppm의 좁은 범위에 분포하는 NH 양성자—에서 특히 뚜렷하게 드러났습니다. Opus 4.7은 실제보다 약간 낮게 예측했지만 일관성이 있었고, Opus 4.6은 예측값이 수 ppm에 걸쳐 분산되었으며, Sonnet 4.6은 실제 범위와 크게 벗어난 10~13 ppm대에 예측값을 배치했습니다.

Opus 4.7은 ChemDraw 및 MestReNova와 전반적으로 비슷한 수준을 보였지만, 수소 NMR 피크의 형태와 피크 간 간격 예측에서는 격차가 더 벌어졌습니다. 이 특성들은 화학자가 위치 정보와 함께 읽는 구조 정보를 담고 있습니다. Opus 4.7은 실험에서 보고된 분열 패턴을 다른 어떤 도구보다 자주 맞혔고, Claude 3가지 모델 모두 피크 간 간격을 약 80%의 경우에서 0.5 Hz 이내로 예측했습니다. 이는 ChemDraw와 MestReNova의 26~35%와 대조됩니다. Opus 4.7은 또한 3회 반복 실행에서 가장 일관된 결과를 보였습니다. 실행 간 평균 오차의 변동폭이, 해당 도구와 차순위 도구 간의 성능 차이보다 작았습니다.
이어서 역방향 예측, 즉 구조 해석(structure elucidation) 평가를 진행했습니다. 스펙트럼만으로 분자의 구조를 도출해낼 수 있는지를 확인하는 실험이었습니다. Opus 4.7에게 15개의 구조 해석 문제를 각 3회씩 제시하고, 후보 구조를 순위를 매겨 최대 3개까지 제안하도록 요청했습니다. 각 문제에는 화합물의 정확한 분자식(고분해능 질량 분석법으로 확인)과 수소 및 탄소 NMR 스펙트럼이 함께 제공되었습니다. 15개 문제는 난이도에 따라 구분했습니다. 단환 또는 2단편 분자로 구성된 8개의 비교적 단순한 화합물에는 분자식과 스펙트럼만 제공했습니다. 축합환, 스피로사이클 등으로 구성된 더 복잡한 7개 화합물에는 추가 힌트로 반응에 사용된 출발 물질의 구조를 함께 제공했습니다.

Opus 4.7은 스펙트럼과 분자식만으로 단순한 구조 8개를 매 시도마다 정확히 도출해냈습니다. 더 복잡한 7개 화합물에서는 출발 물질 힌트를 바탕으로 4개에 대해 3회 모두 정답을 반환했으며, 나머지 화합물들도 3회 중 2회에서 정확한 구조를 제안했습니다.
종합하면, 화학 특화 파인튜닝 없이도 범용 모델인 Opus 4.7이 일상적인 데이터 예측에서 평균적으로 ChemDraw 및 MestReNova와 동등하거나 더 나은 성능을 보인다는 결론을 얻었습니다. 또한 Claude는 NMR 데이터만으로 역방향으로 구조를 제안하는 것도 가능합니다. 전용 구조 해석 소프트웨어는 수십 년 전부터 존재했지만, 일반적으로 2D NMR(두 개의 축을 가진 스펙트럼으로, 출력이 피크 행이 아닌 등고선 지도 형태)과 전문 교육, 유료 라이선스 도구가 필요합니다. Claude는 화학자가 채팅창에 붙여넣을 수 있는 고분해능 질량 스펙트럼과 1D 피크 목록만으로, 별도의 설정 없이 동일한 작업을 수행합니다.
이번 평가는 범용 모델이 NMR 소프트웨어에 필적할 수 있으며, 1D 역방향 구조 해석을 실용적인 수준에서 수행할 수 있음을 보여줍니다. 그러나 몇 가지 주목할 만한 한계도 있습니다.
이상적으로는, 20~30개의 골격 계열에 걸쳐 수백 개의 화합물로 결과를 검증해야 합니다. 계열 내 분산을 도구 간 차이와 구분하려면 계열당 최소 15개 이상의 화합물이 필요합니다. 또한 클로로피리다진 이외의 NH 활성 헤테로 방향족을 평가하고, 미평가 용매를 포함하며, 2D 실험을 활용한 버전의 평가도 수행할 계획입니다.
화학 분야에서 Claude의 성능을 지속적으로 개선하면서, 화학자들의 작업 속도를 가장 많이 저하시키는 몇 가지 병목 지점에 집중하고 있습니다.
이 분야들이 모두 같은 성숙도에 있는 것은 아닙니다. 분광 분석은 이미 벤치마크 평가가 가능한 수준에 도달한 반면, 역합성 경로 설계와 같은 영역은 아직 범위를 설정하는 단계에 있습니다. 이러한 병목 지점에 대한 이해가 깊어질수록, 현재 모델이 뛰어난 부분과 여전히 부족한 부분을 공개적으로 공유할 것입니다. 궁극적인 목표는 현업 화학자들이 Claude를 통해 시간을 절약할 수 있는 영역과, 여전히 자신의 전문성에 의존해야 하는 영역을 명확하게 파악할 수 있도록 하는 것입니다.
AI for Science 프로그램을 확대해 화학 연구를 보다 적극적으로 지원할 예정입니다. 여기서 설명한 멀티모달 추론과 같은 기능이 도움이 될 수 있는 연구 문제를 다루고 있다면, [email protected] 또는 AI for Science 신청 양식을 통해 연락 주시기 바랍니다.