Talkie: 1931년 이전 텍스트로만 학습된 13B LLM, Claude Sonnet을 활용해 모델 테스트 및 출력 평가
핵심 요약
1931년 이전 데이터로만 학습된 LLM 'Talkie'가 Claude를 활용해 현대적 지식 없이도 추론 능력을 보여주며 화제가 됨.
- 학습 데이터 제한 — 1931년 이전 텍스트만 사용하여 현대 인터넷 데이터의 오염을 완전히 배제함.
- Claude의 역할 — Claude Sonnet과 Opus를 모델 평가 및 합성 데이터 생성에 활용하여 학습 파이프라인을 구축함.
- 추론 능력 검증 — 현대 코드 데이터 없이도 19세기 수학 텍스트만으로 파이썬 코드를 작성하는 등 일반화 능력을 입증함.
- 연구 목적 — 모델의 지식 컷오프 이후의 예측 능력과 LLM의 본질적인 정체성을 탐구함.
연구원 Alec Radford(GPT, CLIP, Whisper), Nick Levine, David Duvenaud가 talkie를 출시했습니다. 130억 개의 파라미터를 가진 이 언어 모델은 1931년 이전에 출판된 텍스트로만 독점적으로 학습되었습니다. 인터넷도, 위키백과도, 제2차 세계대전도 없습니다. 이 모델의 세계관은 1930년 12월 31일에 멈춰 있습니다.
왜 중요한가요?
오늘날의 모든 주요 LLM(GPT, Claude, Gemini, Llama)은 결국 현대 웹이라는 공통 조상을 공유합니다. 그렇기 때문에 이 모델들이 무엇을 진정으로 추론하는지, 아니면 단순히 무엇을 암기했는지 구분하기가 거의 불가능합니다.
Talkie는 그 계보를 완전히 끊어버립니다. 연구팀의 말입니다:
"LM의 능력이 암기에서 오는지 일반화에서 오는지 파악하는 것은 중요한 질문입니다. 빈티지 LM은 독특한 일반화 테스트를 가능하게 합니다."
흥미롭게도 Claude는 talkie의 생성에 직접적인 역할을 했습니다. Claude Sonnet 4.6은 talkie의 강화 학습 파이프라인(온라인 DPO)에서 판사 역할을 했고, Claude Opus 4.6은 최종 미세 조정 단계에서 사용된 합성 다중 턴 대화를 생성했습니다. 연구팀은 1930년에 멈춰 있어야 할 모델을 만들기 위해 현대적인 LLM을 사용하는 아이러니를 언급하며, 이를 향후 버전에서 적극적으로 제거해야 할 오염 위험으로 지적했습니다.
가장 놀라운 예시: talkie는 학습 데이터에 현대 코드가 전혀 없음에도 불구하고, 몇 가지 문맥 내 예시만으로 파이썬 코드를 작성하는 법을 배울 수 있습니다. 이는 검색이 아니라 19세기 수학 텍스트로부터 추론하는 것입니다.
연구 목적
- 장기 예측: 모델이 멈춰 있는 시점에서 미래를 얼마나 잘 "예측"할 수 있는가?
- 발명: 모델의 지식 컷오프 이후의 아이디어를 개발할 수 있는가?
- LLM 정체성: 무엇이 모델을 그 자체로 만드는가? Talkie의 이질적인 데이터 분포는 무엇이 아키텍처이고 무엇이 단순히 "웹에서 흡수한 분위기"인지 분리하는 데 도움을 줍니다.
링크
두 모델 모두 Apache 2.0 라이선스이며 Hugging Face에서 오픈 웨이트로 공개되었습니다. 연구팀은 올해 말 GPT-3 규모의 빈티지 모델을 계획하고 있습니다.

