Carta Healthcare는 Claude와 컨텍스트 엔지니어링을 활용해 임상 추출(clinical abstraction) 플랫폼 라이트하우스(Lighthouse)를 구축했습니다. 연간 2만 2천 건의 사례를 처리하며 99%의 정확도를 달성한 이 플랫폼의 개발 과정을 소개합니다.
새로운 시리즈 스타트업의 Claude 활용법에서는 빠르게 성장하는 기업들이 AI로 산업을 어떻게 변화시키고 있는지 조명합니다. 이번 글에서는 Carta Healthcare의 임상 데이터 추출 플랫폼 라이트하우스를 만들면서 얻은 엔지니어링 교훈을 소개합니다. AI 기반 시스템을 대규모로 구축할 때 컨텍스트 엔지니어링이 모델 성능만큼이나 중요한 이유도 함께 살펴봅니다.
임상 레지스트리(clinical registry)는 동일한 진단, 시술, 또는 질환을 가진 환자들에 대한 표준화된 데이터를 수집합니다. 병원들은 치료 결과를 비교하고, 의료 공백을 파악하며, 의료 품질을 개선하기 위해 레지스트리에 데이터를 제출합니다. 하지만 레지스트리의 가치는 결국 데이터의 질에 달려 있고, 양질의 데이터를 만들어내는 일은 겉보기보다 훨씬 어렵습니다.
환자 기록을 레지스트리에 등록 가능한 형태로 변환하는 작업을 임상 데이터 추출(clinical data abstraction)이라고 합니다. 전문 추출사(abstractor)들은 차트를 검토하고, 의사 소견을 해석하며, 상충하는 문서들을 조율하고, 기록이 불명확할 때는 임상적 판단을 내립니다. 단순한 사례도 60분이 걸리고, 복잡한 경우에는 5~6시간이 소요됩니다. 대형 의료 시스템 기준으로 레지스트리 프로그램 하나에만 연간 1만 1천 시간 이상의 숙련된 인력이 투입됩니다.
기존 자동화 도구들은 이 간극을 메우지 못했습니다. 규칙 기반 시스템과 자연어 처리(NLP)는 패턴이 일정한 문서에는 어느 정도 효과적이지만, 임상 언어는 그렇지 않은 경우가 대부분입니다. 동일한 소견이 한 병원에서는 구조화된 필드로, 다른 병원에서는 자유 형식의 텍스트 속에 묻혀 나타납니다. 예외 상황은 끊임없이 발생하고, 맥락은 결정적인 역할을 하며, 오류가 발생했을 때의 대가는 단순히 잘못된 추천 수준이 아닙니다. 데이터 품질 자체가 훼손되어 레지스트리 전체의 신뢰성이 무너집니다.
바로 이 문제를 해결하기 위해 임상 데이터 관리 솔루션 Carta Healthcare가 소프트웨어를 개발했습니다. 이 회사의 플랫폼 라이트하우스는 Claude를 활용해 숙련된 추출사가 하듯 임상 문서 전반을 맥락에 맞게 추론합니다.
이 과정에서 얻은 인사이트는 Carta Healthcare의 접근 방식을 근본적으로 바꿔놓았고, AI를 파일럿에서 실제 프로덕션으로 끌어올리려는 모든 팀에 적용할 수 있는 청사진을 제시합니다.
레지스트리 추출사들이 답해야 하는 질문들은 단순한 데이터베이스 조회가 아닙니다.
예를 들어 "시술 전 가장 최근 혈당 수치는?"이라는 질문에 답하려면 시술 시작 시각을 정확히 파악한 뒤, 그 이전에 기록된 검사 수치를 찾아야 합니다. "퇴원 시 아스피린이 처방되었는가?"라는 질문은 입원 중 투약된 약과 퇴원 후 복용하도록 처방된 약을 구분해야 답할 수 있습니다.
가장 직관적인 접근법은 이런 판단을 규칙으로 자동화하는 것입니다. 임상의가 특정 소견을 기록하는 방식을 매핑하고, 그 패턴을 기반으로 추출 로직을 구축한 뒤 확장하는 방식입니다. 하지만 임상 문서는 이런 접근이 통할 만큼 일관적이지 않습니다. 동일한 임상 소견이 한 병원에서는 구조화된 필드에, 다른 병원에서는 임상 노트의 자유 텍스트로 기록됩니다.
Carta Healthcare도 초기에는 NLP를 활용해 레지스트리 데이터를 자동 추출하는 시스템을 운영했습니다. 하지만 패턴 인식만으로는 임상적 판단을 재현할 수 없다는 한계에 부딪혔습니다.
"Carta Healthcare가 수년 전 NLP로 출발한 이유도, 그리고 결국 LLM으로 전환한 이유도 바로 그 때문입니다." Carta Healthcare의 응용 AI 애플리케이션 매니저 Hannah Glaser의 말입니다.
정확한 추론이 왜 중요한지는 이런 상황을 보면 분명해집니다. 숙련된 추출사 세 명이 동일한 심장 사례를 검토해도 각자 다른, 그러나 모두 타당한 답에 도달할 수 있습니다. 의사 소견은 한 방향을 가리키고, 영상 검사는 다른 방향을 가리킵니다. 올바른 답을 내리려면 두 가지를 모두 고려해 판단해야 하며, 이는 규칙만으로는 해결할 수 없는 문제입니다.
"AI 시스템이 이해해야 할 것은 숙련된 임상 추출사가 이해하는 것과 같습니다. 임상 언어를 맥락 속에서 읽고, 여러 문서에 걸친 상충하는 근거를 비교 검토하며, 특정 시술 날짜를 기준으로 시간 논리를 적용하고, 모호한 상황을 처리하는 능력이죠." Glaser의 설명입니다. "체중이 시술 후에 측정됐다면, 숙련된 추출사는 그게 시술 전 체중으로 인정되지 않는다는 걸 압니다. 시스템도 마찬가지로 알아야 합니다."
Carta Healthcare는 여러 모델을 검토한 끝에 Claude를 선택했습니다.
"임상 문서를 이해하고 해석하는 능력에서 Claude와 견줄 만한 모델은 없었습니다." Glaser의 말입니다.
라이트하우스가 추출하는 데이터 항목마다 필요한 원본 문서, 적용 시간 범위, 정확한 답을 내리는 데 필요한 컨텍스트의 양이 모두 다릅니다.
이것이 컨텍스트 엔지니어링의 핵심 과제입니다. AI 에이전트의 성능은 모델만으로 결정되지 않습니다. 모델에게 무엇을 주느냐에 따라 결과가 달라집니다. 아무리 잘 작성된 프롬프트라도 불완전하거나, 순서가 뒤섞이거나, 범위가 잘못 설정된 정보가 주어지면 기대에 못 미칩니다. 무엇을 포함하고, 무엇을 제외하며, 어떤 순서로 제공할지를 결정하는 것, 바로 이 컨텍스트 구성 작업이 프로토타입과 프로덕션 시스템을 가르는 엔지니어링의 핵심입니다.
시술 전 체중을 예로 들어보겠습니다. 요건은 단순히 "기록에서 체중을 찾아라"가 아닙니다. "특정 시술 시작 시각 이전에 기록된 체중을 찾아라"입니다. 가장 최근 체중이 수술 이틀 후에 측정된 것일 수도 있습니다. 그 값은 사용할 수 없습니다.
Carta Healthcare의 시스템은 런타임에 환자별 컨텍스트를 주입해, Claude가 각 질문에 대해 정확한 시간 기준을 갖도록 합니다. 시술 전 혈당을 묻는 프롬프트에는 시술 시작 시각이 명시되며, 그 이전의 가장 최근 혈당 수치를 요청합니다. 이런 구체성이 없으면 모델이 아무리 뛰어나도 숙련된 추출사라면 즉시 알아챌 불완전한 정보를 바탕으로 작업하게 됩니다.
"우리가 해결한 가장 어려운 문제들은 완벽한 프롬프트를 만드는 게 아니라 컨텍스트를 어떻게 구성하느냐였습니다." Carta Healthcare의 소프트웨어 엔지니어링 매니저 Matthew Mazzanti의 말입니다. 팀이 공들인 진짜 작업은 런타임에 올바른 정보를 조립하는 파이프라인을 구축하는 것이었습니다. 적절한 문서, 적절한 시간 범위, 적절한 우선순위 순서까지 모두 맞춰야 했습니다.
"적절한 데이터를 통합하고, 정리하고, 적시에 제공하는 것이 진짜 작업입니다. 완벽한 프롬프트라도 컨텍스트가 나쁘면 나쁜 답이 나옵니다. 간단한 프롬프트라도 컨텍스트가 올바르면 원하는 결과를 얻을 수 있습니다." Mazzanti의 말입니다.
같은 상황에 처한 팀을 위한 Glaser의 조언은 이렇습니다. 모델에게 추론에 필요한 것을 충분히 제공하고 있는지, 아니면 주어진 것만으로 알아서 해결하길 기대하고 있는지를 먼저 자문해보라는 것입니다.
"무언가 기대에 못 미칠 때, 집계 점수를 보며 뭐가 문제인지 막막해하는 게 아니라 특정 프롬프트, 컨텍스트 문제, 검색 공백 중 어디서 비롯된 것인지 추적할 수 있어야 합니다." Mazzanti의 말입니다. "평가 프레임워크를 초기에 구축하고, 세분화하고, 변수를 분리할 수 있도록 설계하세요. 이 단계를 건너뛰면 개발보다 디버깅에 더 많은 시간을 쏟게 됩니다."
한 대형 의료 시스템에서 라이트하우스는 14개 병원에 걸쳐 연간 2만 2천 건 이상의 수술 사례를 처리했으며, 평가자 간 신뢰도(inter-rater reliability)는 98~99%에 달했습니다. 이는 추출 정확도를 측정하는 업계 표준 지표입니다.
컨텍스트 구성이 탄탄해지면, 임상 문서를 가장 잘 이해하는 사람들이 직접 시스템의 동작 방식을 만들어갈 수 있습니다.
추출사들의 신뢰를 얻는 데 핵심은 투명성이었습니다. 라이트하우스는 블랙박스가 아닙니다. 추출된 모든 데이터 항목에 대해 근거 문서와 Claude의 추론 과정이 함께 제공됩니다. 추출사들은 결과를 그대로 수용하는 대신, 근거를 확인하고 임상적 판단을 직접 행사할 수 있습니다.
여기서 프롬프팅은 임상 전문 지식이 Claude의 추론 방식에 직접 반영되는 통로가 됩니다. 추출사가 특정 레지스트리 데이터 항목이 제대로 추출되지 않는다는 점을 발견하면, 그 이유에 대한 설명, 즉 예외 케이스, 문서 패턴, 프롬프트에서 빠진 부분이 해당 필드를 처리하는 Claude의 방식에 직접 반영됩니다.
컨텍스트 엔지니어링을 일찍부터 우선시한 덕분에, Carta Healthcare는 그 설명을 수정된 프롬프트로 바꿔 당일 바로 배포할 수 있습니다.
"저희 임상 추출사들은 특정 데이터 항목이 실제로 어떻게 작동하는지에 대해 긴 설명을 종종 전달해줍니다." Glaser의 말입니다. "그 피드백을 데이터 사이언스 모델과 커스텀 코드로 변환하는 데 몇 주를 쓰는 대신, 프롬프트에 바로 반영합니다. 레지스트리 하나당 몇 달씩 걸리던 엔지니어링과 품질 검증 작업이 이제는 일주일 안에 끝납니다."
Carta Healthcare의 한 추출사는 이렇게 표현했습니다. "라이트하우스는 제 판단을 대체하지 않습니다. 오히려 더 강화해줍니다."
자세한 내용은 Carta Healthcare의 전체 스토리를 참고하세요.