2,600만 건이 넘는 SEC 공시 자료를 비롯해 실적 발표 트랜스크립트, IR 프레젠테이션, 컨센서스 추정치, 그리고 14,000개 이상 기업과 27개 글로벌 시장의 비공개 데이터까지 인덱싱하는 플랫폼의 내부를 들여다봅니다. 모든 수치를 공시 문서의 정확한 페이지와 항목 단위까지 추적해 검증하는 AI를 이 팀이 어떻게 만들었는지 살펴봅니다.
연재 시리즈 스타트업이 Claude로 제품을 만드는 방법에서는 AI로 산업을 혁신하는 스타트업을 소개합니다. 이번 글에서는 Kepler가 금융 서비스 분야에서 AI 신뢰 및 검증 레이어를 구축한 과정을 살펴봅니다.
금융사는 규제가 촘촘한 환경에서 운영되기 때문에 모든 보고는 감사 추적이 가능하고 책임 소재가 명확해야 합니다. 규제 신고서, 딜 피치(deal pitch), 리서치 보고서에 들어가는 수치는 하나하나 원본 문서와 대조해 검증할 수 있어야 합니다.
금융 업계가 전통적으로 사용해 온 도구들은 데이터를 가져올 수는 있지만, 검증 과정은 여전히 애널리스트가 직접 수행해야 합니다. 분석 시스템은 자유형식의 질문을 해석하거나, 그것을 단계별로 분해하거나, 특정 지표를 구하기 위해 특정 회계 기간에 걸친 세 가지 항목을 조합해야 한다는 사실을 스스로 파악하지 못합니다. AI 시스템은 이런 해석이 가능하지만, 해석과 계산을 동시에 처리하다 보니 최종 수치가 모델이 직접 생성한 값이 되어 오류가 발생할 수 있습니다.
Vinoo Ganesh과 John McRaven은 Palantir에서 수년간 국방, 에너지, 금융 기업을 위한 데이터 시스템을 구축한 경험을 쌓았습니다. 그 경험은 답변의 검증 가능성이 필수인 환경에서 신뢰를 어떻게 설계할지에 대한 두 사람의 사고방식을 형성했습니다. Kepler를 창업하기 전, 그들은 사모펀드, 헤지펀드, 투자은행을 포함해 147개 금융사와 대화를 나눴습니다. 거의 모든 곳에서 같은 이야기를 들었습니다. 리서치에 AI를 활용하고 싶지만, 그 결과물을 믿을 수 없다는 것이었습니다. 한 매니징 디렉터는 이렇게 말했습니다. "감사할 수 없는 것을 어떻게 믿으라는 겁니까?"
두 창업자가 내놓은 답은 AI를 위한 신뢰 및 검증 레이어 역할을 하는 결정론적(deterministic) 인프라를 구축하는 것이었습니다. 이 인프라는 추론과 해석 레이어를 담당하는 Claude와 결합해 Kepler Finance를 구동합니다. Kepler Finance는 금융 서비스 애널리스트를 위한 리서치 플랫폼으로, 일반 영어로 질문하면 즉시 검증 가능한 답변을 받을 수 있습니다.
금융 분석은 복잡한 다단계 계산과 방대한 데이터, 중의적 용어가 뒤엉켜 있으며 오류를 용납하지 않습니다. Kepler는 이런 환경에서 긴 계획을 끝까지 일관되게 유지하고, 모호한 상황을 스스로 감지해 알릴 수 있는 모델이 필요했습니다.
예를 들어 애널리스트가 최근 8개 분기의 재고 회전 일수(inventory days outstanding)를 묻는다면, 모델은 그 답을 구하는 데 무엇이 필요한지 스스로 파악해야 합니다. 올바른 공식, 정확한 회계 기간, 수치에 영향을 줄 수 있는 수정 공시까지 모두 짚어야 하는 것입니다.
팀은 모든 프론티어 모델을 벤치마킹했습니다. 단순한 쿼리에서는 모델 간 성능 차이가 크지 않았습니다. 하지만 상호 의존성이 있는 길고 복잡한 멀티스텝 계획에서는, Claude를 제외한 모든 모델이 네 번째나 다섯 번째 단계쯤에서 지름길을 택하거나 조건을 놓치기 시작했습니다. "우리 워크로드에서 계획을 끝까지 일관되게 유지한 모델은 Claude뿐이었습니다"라고 Ganesh는 말합니다. "다른 모델들은 처음엔 잘 따라오다가 다섯 번째 단계에서 슬그머니 조건 하나를 빠뜨리기 시작했습니다."
가장 뚜렷한 차이는 각 모델이 불확실한 상황에서 어떻게 대처하고, 인간을 루프 안에 유지하는가에서 나타났습니다. 예를 들어 하나의 용어가 두 가지 의미로 해석될 수 있는 상황에서, 대부분의 모델은 한 가지 의미로 판단하고 계속 진행했습니다. Claude는 멈추고 애널리스트에게 판단을 맡겼습니다. "그 동작이 어떤 벤치마크 점수보다 중요합니다"라고 Ganesh는 말합니다. "금융 분석 초반에 잘못된 가정 하나가 들어가면 이후 모든 것이 무너집니다."
Kepler 팀은 Claude에게 명확하게 정의된 작업과 함께 구조화된 도메인 지식, 정의, 그리고 스스로 해결할 사항과 상위로 올릴 사항에 대한 명확한 경계를 제공했을 때 결과가 훨씬 좋아진다는 것을 발견했습니다. "금융에서 모델은 시스템 전체가 될 수 없습니다. 저희는 모델을 파이프라인의 한 단계로 봅니다. 각 단계에서 모델이 성공하는 데 필요한 것을 정확히 전달하는 것이 우리 역할입니다"라고 McRaven은 말합니다. "프롬프트 엔지니어링이 개별 호출을 최적화한다면, 콘텐츠 엔지니어링은 그 호출을 둘러싼 시스템 전체를 최적화하는 것입니다."
팀은 비율 계산이나 회계 기간 처리처럼 정확성이 증명되어야 하는 모든 연산에서 Claude가 호출할 수 있는 결정론적 실행 환경을 구축했습니다. 또한 금융 개념을 정확한 정의와 공식으로 매핑하는 독자적인 온톨로지(ontology)를 개발했으며, 이는 용도에 따라 커스터마이징할 수 있습니다. 보안 및 접근 제어는 각 단계마다 적용되어 사용자별로 접근 가능한 데이터 소스를 제어합니다. 이를 바탕으로, 복잡한 자본 구조(우선주, 전환사채, 소수 지분 처리 등)에 걸친 기업 가치 계산이나 보고 기간 변경에 따른 부문별 매출 워터폴 조정처럼 파이프라인 내 가장 빈번하게 사용되는 워크플로를 위한 반복 가능하고 커스터마이징 가능한 스킬도 구축했습니다. 이 스킬들은 결정론적 단계와 비결정론적 단계를 조율하며, 설계상 멱등성(idempotency)을 보장합니다. 동일한 입력은 항상 동일한 출력을 생성합니다.
나아가 팀은 워크플로를 다단계 파이프라인으로 분해하고, 각 단계에 적합한 Claude 모델을 배치했습니다. 의도 분해, 모호성 해소, 구조화된 실행 계획 수립 같은 복잡한 추론에는 Opus 4.7을, 작업이 더 제한적이고 처리량이 많은 단계에는 Sonnet 4.6을 활용합니다. 또한 팀은 재무제표 레이블을 표준 택소노미 코드로 매핑하는 것과 같은 작업에서 94%의 정확도를 달성하는 자체 특화 모델도 훈련했습니다. 이는 다른 모델들이 기록한 38~46%와 비교해 월등한 수치입니다. 이 중 일부는 Claude를 기반으로, 일부는 Kepler 고유 모델로 구성되어 있습니다.
팀은 모든 프롬프트 변경, 모델 업그레이드, 컨텍스트 수정 사항을 프로덕션 배포 전에 수천 개의 케이스로 검증합니다. 자동화된 평가(evaluation) 파이프라인을 구축해 매 단계마다 Claude의 출력을 정답과 대조하며 구조화된 계획과 최종 계산 결과를 모두 확인합니다. 테스트가 실패하면, 문제가 Claude의 추론에 있는지, 제공된 컨텍스트에 있는지, 아니면 다운스트림 실행에 있는지 정확히 추적할 수 있습니다. Anthropic이 새 모델 버전을 출시하면, Kepler는 몇 시간 안에 벤치마킹을 완료하고 어떤 단계가 개선되었는지, 어떤 단계가 저하되었는지, 어떤 단계에서 프롬프트 조정이 필요한지 정확히 파악합니다.
Kepler Finance는 27개 글로벌 시장에 걸친 14,000개 이상의 기업을 대상으로 2,600만 건이 넘는 SEC 공시 자료, 5,000만 건 이상의 공개 문서, 100만 건 이상의 비공개 문서를 인덱싱했습니다. Claude는 이 방대한 비정형 데이터를 실제로 활용할 수 있게 해줍니다. 전체 데이터셋을 대상으로 질문을 해석하고, 기업별·시기별로 달라지는 용어 차이를 조율하는 것입니다. Kepler의 검색 레이어는 검증된 SEC 공시 자료에서 수치를 가져와 계산을 수행하고, 그 결과를 담당자의 엑셀 템플릿에 자동으로 채워 넣습니다. 애널리스트는 클릭 한 번으로 각 수치를 원본 문서의 정확한 항목까지 역추적할 수 있습니다.
Claude의 추론과 Kepler의 결정론적 인프라를 분리한 구조 덕분에 소규모 팀으로도 이 규모의 서비스를 구축할 수 있습니다. Claude가 수많은 도메인 특화 NLP 엔지니어를 대신해 해석 레이어를 담당하고, 나머지는 Kepler의 인프라가 처리합니다. 아키텍처가 모듈식이기 때문에, 대규모 팀이라면 몇 달이 걸렸을 새 기능을 몇 주 만에 구현할 수 있습니다. 파이프라인의 나머지 부분을 건드리지 않고 특정 단계의 추론만 개선할 수 있기 때문입니다.
금융 기관은 파트너십을 맺기 전에 컴플라이언스 인프라를 요구하기 때문에, Kepler는 처음부터 완전한 감사 로깅, 고객별 격리 환경, 엔드투엔드 출처 추적을 구축했습니다. 현재 SOC 2 Type II 인증을 보유하고 있으며, ISO 27001 인증도 진행 중입니다.
Kepler의 플랫폼은 설계상 특정 도메인에 종속되지 않습니다. 팀이 금융 분야를 첫 시장으로 선택한 것은 의도적인 결정이었습니다. 방대한 데이터, 중의적 용어, 복잡한 계산, 그리고 오류 불용(zero tolerance) 원칙이 맞물리는 금융이야말로 AI에게 가장 까다로운 환경 중 하나이기 때문입니다. 이 수준의 검증을 견뎌낼 수 있도록 설계된 아키텍처는, 전문가들이 방대한 문서에서 검증 가능한 답변을 필요로 하는 어떤 분야에도 적용할 수 있습니다. 임상시험 데이터와 치료 프로토콜을 대조해야 하는 의료 기관이든, 수십 년치 판례에서 선례를 추적해야 하는 법률팀이든, 패턴은 동일합니다. Claude가 질문을 추론하고, 인프라가 답변을 보장합니다.
"Kepler Finance는 저희의 첫 번째 제품입니다"라고 Ganesh는 말합니다. "마지막은 아닐 것입니다."
Claude 플랫폼에서 스타트업을 구축하세요.