기밀 추론(Confidential Inference)에 관한 새로운 공동 연구 논문을 발표했습니다. 모델 가중치와 사용자 데이터의 보안을 강화하기 위한 도구 모음을 다루고 있습니다.
매일 수백만 명의 사용자가 독점 코드부터 기밀 사업 전략에 이르기까지 민감한 정보를 Claude에 맡기고 있습니다. Anthropic은 이러한 사용자의 신뢰에 부응하기 위해, 나아가 그 신뢰를 암호학적으로 보장하기 위해 새로운 기술을 연구하고 개발하고 있습니다.
"암호학적 보장"이란 정확히 무엇을 의미할까요? Pattern Labs와 공동으로 발표한 새로운 보고서에서 기밀 추론(Confidential Inference)의 메커니즘을 상세히 설명합니다. 기밀 추론은 암호화된 데이터를 처리하고, 해당 데이터가 신뢰성을 스스로 증명할 수 있는 서버 내에서만 읽힌다는 것을 입증하기 위한 일련의 도구입니다. 이 도구를 도입해야 하는 이유는 크게 두 가지입니다.
이 글과 함께 공개하는 보고서를 통해 기밀 추론이 무엇이며, 사용자에게 어떤 이점을 제공할 수 있는지 설명하고자 합니다. 또한 관련 시스템의 보안에 대한 Anthropic의 현재 관점도 공유하려 합니다. 이 글은 논의를 시작하기 위한 연구의 개략적인 소개에 불과합니다. 아직 초기 단계이며, 향후 어떤 구체적인 설계나 기능으로 발전할지 예측하기는 이릅니다.
아래 섹션에서는 기밀 추론 구현에 관한 기술적 세부 사항을 다룹니다. 핵심은 민감한 데이터가 처리가 필요한 정확한 순간을 제외하고는 모든 곳에서 암호화된 상태를 유지하며, 처리되는 순간에도 고도로 제한되고 검증 가능한 환경 내에서만 복호화되는 시스템을 구축하고 있다는 점입니다.
기밀 추론의 핵심 원칙은 민감한 데이터가 처리되는 지점을 제외하고는 항상 암호화 상태를 유지해야 한다는 것입니다. 이를 구현하기 위해 기밀 컴퓨팅(Confidential Computing)의 확립된 방법론을 활용합니다. 구체적으로, 소프트웨어의 보안을 증명하는 신뢰 체인을 구축하고, 이 증명을 기반으로 어떤 소프트웨어만 암호화 키를 사용할 수 있는지 규칙을 적용합니다.
사용자 데이터의 경우, 민감한 평문(즉, 암호화되거나 어떤 방식으로도 난독화되지 않은 텍스트)을 직접 다뤄야 하는 지점이 두 군데 있습니다.
모델 가중치의 경우, 민감한 데이터를 수신하는 것은 추론 서버뿐입니다.
이 글에서는 추론 서버에 초점을 맞춥니다. API 서버의 보안도 마찬가지로 중요하지만, 여기서 다루고자 하는 범위를 벗어납니다. 아직 모든 가속기가 기밀 컴퓨팅을 완전히 지원하는 것은 아니므로, 신뢰 환경 내에서 실행 가능한 소규모의 안전한 "모델 로더 겸 호출기(model loader and invoker)"를 기반으로 한 추론 서버 구현을 탐구하고 있습니다. 이 로더 프로그램은 몇 가지 단순한 작업을 수행합니다.
복호화된 데이터에 접근할 수 있는 것은 "신뢰" 로더뿐입니다. 시스템의 나머지 부분은 "비신뢰" 영역이지만, 로더에 요청을 보낼 수는 있습니다.
Anthropic은 이 설계를 기반으로 자체 구현 시스템을 개발하고 있습니다. 이 구현에서 추론 서버의 대부분은 "비신뢰" 영역에서 실행됩니다. 이 영역은 빈번하게 변경될 수 있지만, 어떤 변경이 이루어져도 시스템 전체의 보안에는 영향을 미칠 수 없습니다. 소규모 신뢰 로더는 하이퍼바이저에 의해 격리된 별도의 가상 머신에서 실행됩니다. 로더는 추론 서버에 "가상 가속기"로 노출되며, 모델 아키텍처의 세부 사항과는 무관하게 동작합니다. 이 "가상 가속기"는 보안 CI(Continuous Integration) 서버에서 서명된 프로그램만 수용하며, 이를 통해 실행되는 모든 코드가 복수의 엔지니어에 의해 리뷰되었음을 보장합니다.
최종 목표는 로더가 올바르게 실행되기만 하면, 시스템의 나머지 부분이 무엇을 하든 상관없이 기밀성 요건이 충족되도록 하는 것입니다. 따라서 로더가 올바르게 실행되고 있음을 확인하는 것이 핵심입니다.
보고서에서는 로더가 다음과 같은 특성을 갖춘 기밀 컴퓨팅 환경에서 실행되는 것을 설명합니다.
(1)은 일부 형태의 물리적 공격과 악성 하이퍼바이저로부터 보호하지만, 암호화된 호스트 메모리를 가속기와 공유하는 데 필요한 기능은 아직 충분히 확립되지 않았습니다. 이 격차를 해소하기 위한 작업을 지속하겠지만, 당분간은 컴퓨팅 제공업체가 물리적 데이터센터와 하이퍼바이저 소프트웨어의 보안을 유지하는 것에 의존할 것입니다.
(2)와 (3)은 TPM(Trusted Platform Module)을 신뢰 루트로 사용하는 널리 지원되는 기밀 컴퓨팅 관행을 통해 달성할 수 있습니다. TPM은 부팅 프로세스의 각 단계를 측정하고, 최종 결과를 나타내는 해시를 보고합니다. 이 해시는 로더 서버가 예상대로 격리되어 있고, 서명 및 리뷰된 코드를 실행 중이며, 관련 디버깅 기능이 비활성화되어 있다는 증명(attestation)을 형성합니다. 키서버는 이 증명을 확인하고, 수신자가 스스로의 보안을 증명한 경우에만 복호화 키를 제공합니다.
환경의 "신뢰" 여부를 최종적으로 판단하는 것은 키서버입니다. Anthropic은 외부 당사자가 신뢰 코드를 검증하고 독립적인 키서버를 관리하는 기밀 컴퓨팅 모델도 탐구하고 있습니다. 이를 통해 각 데이터에 대해 더 강력한 기밀성 보장을 제공할 수 있을 것입니다.
프런티어 모델이 더욱 강력해짐에 따라, 보안 로더 레이어에 추가적인 안전장치를 도입해야 할 수 있습니다. 예를 들어, 평문 모델 가중치를 보유한 서버에 대한 이그레스 대역폭 제한 추가 레이어나, 추론 실행 전에 안전성 분류기의 서명을 요구하는 기능 등이 포함될 수 있습니다. 이 기밀 추론 모델을 공개함으로써, Anthropic 환경의 지속적인 보안과 사용자 데이터의 기밀성을 보장하기 위해 어떤 추가 기능을 탐구할 가치가 있는지에 대한 논의가 활발해지기를 기대합니다.
이 연구는 모델 가중치 보호와 사용자 데이터 보안을 위한 Anthropic의 지속적인 노력을 한 단계 진전시킬 것입니다. 이 모델을 사용자 요청 보호에 적용하면, 고객 데이터가 강화된 하드웨어 기반 보안 제어가 적용된 환경에서만 복호화되도록 보장할 수 있습니다.
모델 가중치는 더 단순합니다. 암호화된 상태로 저장하고, 로더에서 복호화한 뒤, 로더 밖으로는 절대 유출되지 않습니다.
아직 도입하지 않은 하드웨어 설계사는 자사 칩에 기밀 컴퓨팅을 통합하는 것을 고려해야 합니다. 가속기에 하드웨어 신뢰 루트가 존재한다면, 이러한 시스템의 신뢰 경계를 크게 축소할 수 있습니다.
전체 보고서 읽기
기밀 추론에 관한 이 논의가 흥미로웠다면, Anthropic과 함께 이 문제를 해결해 보시기 바랍니다. 채용 페이지의 "Security" 및 "AI Research and Engineering" 섹션에서 열린 포지션을 확인하고 지원해 주세요.