AI agent가 기업 환경에 본격 배포되면서 기존 보안 모델로는 대응할 수 없는 새로운 위협이 등장했다. Anthropic이 제시한 이 프레임워크는 Zero Trust 원칙을 agentic 시스템에 적용해 침해를 가정하고 설계하는 실전 가이드다.
기존 경계 기반 보안은 이미 한계에 다다랐다. 그런데 AI가 이 문제를 두 겹으로 악화시키고 있다. 첫째, 공격자들이 frontier 모델을 활용해 취약점 발견부터 익스플로잇 개발까지의 시간을 수개월에서 수 시간으로 단축하고 있다. 둘째, 기업이 배포하는 agent 자체가 새로운 공격 표면이 된다.
전통적인 소프트웨어는 사전 정의된 로직을 실행하지만 agentic AI는 다르다. 목표를 스스로 해석하고, 도구를 선택하고, 다단계 작업을 자율적으로 수행한다. 합법적인 권한 안에서 움직이는 agent를 기존 접근 제어만으로는 막을 수 없다. 조작된 agent는 사람이 알아채기도 전에 머신 속도로 피해를 일으킨다.
경쟁 우위는 가장 첨단 AI를 가진 조직이 아니라, 기본기가 탄탄해서 AI 스캐닝으로도 버그가 거의 나오지 않고, agent 배포를 처음부터 침해를 전제하고 설계한 조직에게 돌아간다.
Zero Trust는 1994년 Stephen Paul Marsh의 박사 논문에서 출발해 NIST SP 800-207, NSA의 Zero Trust Implementation Guides(ZIGs)로 체계화됐다. 미국은 연방기관에 2027년까지 Zero Trust 도입을 의무화했다. 핵심은 단순하다.
여기에 agentic 시스템에 특화된 개념이 하나 더 추가된다. OWASP가 새롭게 정의한 least agency다. 최소 권한이 "무엇에 접근할 수 있는가"를 제한한다면, least agency는 "얼마나 자주, 어떤 방식으로, 어디서 도구를 사용할 수 있는가"까지 제한한다. 데이터베이스 도구는 읽기 전용 쿼리만, 이메일 요약 도구는 전송·삭제 권한 없이, API는 최소한의 CRUD 작업만 허용하는 식이다.
설계 원칙을 평가하는 간단한 테스트가 있다. "이 통제가 공격을 불가능하게 만드는가, 아니면 그냥 귀찮게 만드는가?" rate limit, 비표준 포트, SMS 기반 MFA처럼 마찰만 주는 통제는 무한한 인내심과 비용이 거의 없는 agentic 공격자 앞에서 무의미하다. 살아남는 통제는 하드웨어 바인딩 자격증명, 만료 토큰, 암호화 신원처럼 공격 경로 자체를 제거하는 것들이다.
직접 주입(direct injection)은 사용자 입력을 통해 시스템 지시를 덮어쓰는 방식이다. Base64, 16진수 인코딩이나 사람에게는 무해해 보이지만 모델 출력에 영향을 미치는 adversarial suffix를 사용하며, 연구에 따르면 알고리즘 방식으로 100% 공격 성공률을 달성한 사례도 있다.
더 교묘한 것은 간접 주입(indirect injection)이다. 공격자가 agent가 처리하는 웹 페이지, 이메일 같은 외부 데이터 소스에 악성 지시를 심어두는 방식이다. Microsoft Research는 LLM이 정보성 컨텍스트와 실행 가능한 지시를 신뢰할 수 있는 수준으로 구별하지 못한다는 것을 확인했다. 사용자는 악성 payload를 전혀 보지 못하고, agent는 이를 정당한 요청처럼 처리한다.
Tool poisoning은 MCP tool descriptor, 스키마, 메타데이터 같은 도구 인터페이스를 조작하는 공격이다. 최초로 실제 환경에서 발견된 악성 MCP 서버는 정상적인 이메일 서비스를 사칭해 발송된 모든 이메일을 몰래 복사했다. Tool chaining은 더 교묘하다. 개별적으로는 안전한 도구들을 조합해 피해를 만들어낸다. 내부 CRM 도구와 외부 이메일 도구를 연결해 각각으로는 절대 노출되지 않을 고객 데이터를 유출하는 식이다. 모든 명령이 유효한 자격증명으로 신뢰받는 바이너리를 통해 실행되기 때문에 호스트 중심 모니터링에는 멀웨어가 보이지 않는다.
모델 공급망 위험도 현실이다. Anthropic 연구에 따르면 단 250개의 악성 문서를 주입하는 것만으로 6억~130억 파라미터 LLM에 백도어를 성공적으로 심을 수 있고, 이 백도어는 supervised fine-tuning과 RLHF를 포함한 안전 훈련을 거쳐도 사라지지 않는다.
멀티에이전트 시스템에서 높은 권한을 가진 manager agent가 최소 권한 범위를 지정하지 않고 작업을 위임하면, 제한된 권한을 가져야 할 worker agent가 상위 agent의 전체 접근 컨텍스트를 그대로 상속받는다. 반대로 낮은 권한의 침해된 agent가 높은 권한 agent에 정당해 보이는 지시를 중계하고, 상위 agent가 원래 사용자의 의도를 검증하지 않고 실행하는 '혼란 대리인(confused deputy)' 문제도 발생한다.
세션을 넘나드는 메모리 오염은 더 지속적인 위협이다. 한번 심어진 악성 지시는 현재 세션뿐 아니라 이후 모든 세션에 영향을 미친다. RAG 시스템에서는 벡터 데이터베이스에 오염된 데이터를 주입해 agent가 쿼리에 잘못된 답변을 반환하거나 타깃 payload를 실행하게 만들 수 있다.
모든 보안 통제는 Foundation → Enterprise → Advanced 세 단계로 구분된다. 단계별로 이전 통제를 대체하는 것이 아니라 강화하는 방식이다. AI 가속 공격으로 Foundation의 기준 자체가 올라갔다는 점을 주목해야 한다. 마찰만 주는 통제는 이제 Foundation에도 해당하지 않는다.
정적 API key와 공유 서비스 계정 비밀번호는 AI 보조 코드 분석을 가진 공격자가 가장 먼저 찾아내는 것들이다. 이제 Foundation 기준에도 못 미친다. 단기 토큰으로 이전하고, 가능한 모든 곳에서 하드웨어에 자격증명을 바인딩해야 한다.
관찰성에서 먼저 계측해야 할 두 가지 지표가 있다. 체류 시간(dwell time)(이상 발생에서 사람이 인지하기까지)과 커버리지(실제로 조사되는 경보 비율)다. AI 자동화가 가장 효과적으로 개선할 수 있는 두 지표이기도 하다.
자동화 대응에서 중요한 원칙이 있다. 사고 주변의 행정 업무는 자동화하되, 판단은 자동화하지 않는다. 모델이 노트를 작성하고, 증거를 수집하고, 병렬 조사를 진행하고, 사후 검토 초안을 잡는다. 격리 결정, 공개 결정, 고객 커뮤니케이션 결정은 사람이 한다.
규제 요건, 운영 목표, 제약 조건을 명확히 한다. 보안, 법무, 컴플라이언스, 비즈니스 이해관계자를 구축 전에 정렬시켜야 한다.
AI-BOM(AI Bill of Materials)으로 모델 출처, 학습 데이터 계보, fine-tuning 파라미터를 추적한다. OpenSSF Scorecard로 모든 의존성의 보안 상태를 자동으로 점수화한다. 유지 관리가 안 되는 소규모 의존성은 frontier 모델로 실제 사용하는 기능만 재구현하는 것이 계속 의존하는 것보다 안전할 수 있다.
허용 행동과 금지 행동을 명시적으로 문서화한다. "고객 서비스를 도와라"처럼 모호한 권한이 아니라 "고객 레코드 읽기, 정보 요약, 응답 초안 작성만 허용"처럼 구체적으로 정한다. 각 agent에 고유 ID와 별도 자격증명을 부여한다. 여러 agent로 분리했더라도 동일한 자격증명을 공유하면 위험 격리에 실패한 것이다.
Microsoft의 Spotlighting 기법은 신뢰할 수 없는 콘텐츠를 명확히 구분 표시해 간접 주입 공격 성공률을 50% 이상에서 2% 미만으로 낮췄다. Anthropic의 constitutional classifier 접근법은 테스트에서 jailbreak 시도의 95%를 차단했다.
허용 목록(allow-listing) 방식으로 승인된 도구만 사용 가능하게 한다. 도구 인증에 정적 API key는 Foundation 기준에도 해당하지 않는다. 인증서 기반 인증이나 calling agent ID에 바인딩된 단기 토큰을 사용해야 한다. rate limit은 장벽이 아닌 시간을 버는 수단일 뿐임을 기억해야 한다.
각 agent 인스턴스는 고유한 자격증명을 가져야 한다. 공유 자격증명은 단일 도용으로 모든 agent의 접근권을 내주는 결과를 낳는다. 자격증명은 코드나 설정 파일에 절대 포함하지 않는다. 런타임에 secrets management 시스템에서 주입해야 한다.
세션 간 엄격한 격리를 적용한다. 암호화 해시로 저장된 컨텍스트의 무결성을 검증한다. 검증 실패 시 의심스러운 컨텍스트를 거부하고 보안팀에 경보를 보낸다. 오염이 탐지됐을 때를 대비해 버전 관리된 메모리 저장소를 유지해 알려진 정상 상태로 롤백할 수 있어야 한다.
규제 산업에서는 결정 설명 가능성(explainability)이 선택 사항이 아니다. 보안팀이 답할 수 있어야 하는 질문: "agent가 이상 행동을 하면 1시간 안에 알 수 있는가?" 불확실하다면 기초 통제에 더 많은 작업이 필요하다.
agent를 안전하게 배포하는 것은 작업의 절반이다. 나머지 절반은 AI 가속 공격자에 맞설 수 있는 속도로 보안 운영을 돌리는 것이다. 패치 후 몇 시간 안에 익스플로잇이 나오는 환경에서 며칠이 걸리는 대응 프로세스는 너무 느리다.
모든 들어오는 경보에 사람이 보기 전에 자동화된 첫 번째 조사를 적용한다. 실용적인 시작점은 false positive 비율이 높은 규칙 하나를 골라, SIEM에 읽기 전용으로 접근하는 frontier 모델을 연결하고, 모든 발화에 대해 구조화된 판단(query, think, report)을 생성하게 하는 것이다. 2주 동안 사람 검토자와 일치율을 측정하고, 허용 가능하면 다음 규칙으로 확장한다. 전체 큐를 한 번에 자동화하려 하지 말 것.
방어 자동화 자체에도 동일한 Zero Trust 원칙이 적용된다. 방어 agent를 침해한 공격자는 강력한 역공 수단을 손에 넣게 된다. 자동화된 대응이 고영향 조치를 권장할 때도 최종 승인은 사람이 해야 한다.
Zero Trust 적용의 핵심을 한 문장으로 요약하면: 모든 agent 행동을 검증하고, 최소 필요 권한만 부여하고, 침해가 발생했을 때 피해를 봉쇄하라.
Foundation 티어에서 시작하되, Foundation의 기준이 올라갔음을 인식해야 한다. 단기 토큰, 암호학적 근거를 가진 신원, 신원 기반 격리, 자동화된 첫 번째 트리아지는 이제 목표가 아닌 진입 요건이다. 의료, 금융, 정부 같은 규제 산업에서 HIPAA, FINRA, GDPR, FedRAMP, EU AI Act는 이미 Zero Trust와 일치하는 요건을 부과하고 있으며 도입 기한이 다가오고 있다.
위협은 진화한다. 방어도 함께 진화해야 한다.