Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
Claude Opus 4.5는 프롬프트 인젝션(prompt injection), 즉 AI 모델이 처리하는 콘텐츠에 숨겨진 악의적 지시에 대한 방어력에서 새로운 기준을 세웠습니다. 새 모델은 핵심 성능뿐 아니라 사용 환경의 안전장치 측면에서도 이전 모델 대비 크게 향상되었습니다. 그러나 프롬프트 인젝션은 아직 해결된 문제가 아니며, 모델이 실제 환경에서 더 많은 작업을 수행할수록 위험은 더욱 커집니다. Anthropic은 AI 모델(또는 "에이전트")이 높은 가치의 작업을 프롬프트 인젝션 위험 없이 수행할 수 있는 미래를 목표로 꾸준히 발전해 나갈 것입니다.
AI 에이전트가 진정한 유용성을 갖추려면 사용자를 대신해 웹사이트를 탐색하고, 작업을 완료하며, 사용자의 맥락과 데이터를 활용할 수 있어야 합니다. 하지만 여기에는 위험이 따릅니다. 에이전트가 방문하는 모든 웹페이지가 잠재적인 공격 경로가 될 수 있기 때문입니다.
구체적으로 말하면, 에이전트가 인터넷을 탐색할 때 완전히 신뢰할 수 없는 콘텐츠와 마주하게 됩니다. 정상적인 검색 결과, 문서, 애플리케이션 사이에 공격자가 에이전트를 탈취하고 동작을 변경하기 위한 악성 지시를 심어둘 수 있습니다. 이러한 프롬프트 인젝션 공격은 브라우저 기반 AI 에이전트가 직면한 가장 심각한 보안 과제 중 하나입니다.
아래에서는 프롬프트 인젝션이 브라우저 에이전트를 어떻게 위협하는지, 그리고 이에 대응하여 Claude의 방어력을 어떻게 개선했는지 설명합니다.
이번 개선을 바탕으로 Claude for Chrome 확장 프로그램을 리서치 프리뷰에서 베타로 전환하기로 결정했습니다. 현재 Max 플랜의 모든 사용자가 이용할 수 있습니다.
프롬프트 인젝션의 위협을 이해하기 위해 일상적인 시나리오를 살펴보겠습니다. Claude에게 최근 이메일을 읽고 미팅 요청에 대한 답장 초안을 작성해 달라고 요청했다고 가정합니다. 그런데 이메일 중 하나가 겉보기에는 거래처 문의처럼 보이지만, 사실 흰색 텍스트로 숨겨진 지시가 포함되어 있습니다. 사용자 눈에는 보이지 않지만 에이전트는 이를 처리하게 됩니다. 이 숨겨진 지시는 에이전트에게 "confidential"이라는 단어가 포함된 이메일을 외부 주소로 전달한 뒤 요청받은 답장 초안을 작성하도록 유도합니다. 인젝션이 성공하면, 사용자가 답장을 기다리는 사이에 민감한 통신 내용이 외부로 유출되는 것입니다.
신뢰할 수 없는 콘텐츠를 처리하는 모든 에이전트에 프롬프트 인젝션 위험이 존재하지만, 브라우저 사용은 두 가지 측면에서 이 위험을 증폭시킵니다. 첫째, 공격 표면이 매우 넓습니다. 모든 웹페이지, 내장 문서, 광고, 동적으로 로드되는 스크립트가 악성 지시의 잠재적 경로가 됩니다. 둘째, 브라우저 에이전트는 URL 이동, 폼 입력, 버튼 클릭, 파일 다운로드 등 다양한 작업을 수행할 수 있어, 공격자가 에이전트의 동작을 장악할 경우 악용 가능한 범위가 매우 넓습니다.
리서치 프리뷰로 Claude for Chrome을 출시한 이후, 프롬프트 인젝션 방어력에서 상당한 진전을 이루었습니다. 아래 차트는 오늘 출시하는 Claude 브라우저 확장 프로그램 버전과 최초 출시 구성을, 효과가 입증된 다양한 프롬프트 인젝션 기법을 시도하고 조합하는 내부 적응형 "Best-of-N" 공격자를 기준으로 평가한 결과입니다.

Claude Opus 4.5는 브라우저 사용 환경에서 이전 모델보다 강력한 프롬프트 인젝션 방어력을 보여줍니다. 또한 브라우저 확장 프로그램의 최초 프리뷰 이후 새로운 안전장치를 구현하여 모든 Claude 모델의 안전성을 대폭 향상시켰습니다.
1%의 공격 성공률은 큰 개선이지만, 여전히 의미 있는 수준의 위험입니다. 프롬프트 인젝션에 완전히 면역인 브라우저 에이전트는 없으며, 이 결과를 공유하는 것은 문제가 해결되었다고 주장하기 위해서가 아니라 발전 과정을 투명하게 보여주기 위함입니다.
지금까지의 작업은 다음 영역에 집중되었습니다:
프롬프트 인젝션에 저항하도록 Claude 훈련. 강화 학습을 통해 프롬프트 인젝션 방어력을 Claude의 핵심 역량에 직접 내장합니다. 모델 훈련 과정에서 시뮬레이션된 웹 콘텐츠에 삽입된 프롬프트 인젝션에 Claude를 노출시키고, 악성 지시를 정확히 식별하고 거부할 때 "보상"을 제공합니다. 이는 해당 지시가 권위 있거나 긴급해 보이도록 설계된 경우에도 마찬가지입니다.
분류기 개선. 모델의 컨텍스트 윈도우에 들어오는 모든 신뢰할 수 없는 콘텐츠를 스캔하고, 분류기(classifier)를 통해 잠재적 프롬프트 인젝션을 탐지합니다. 이 분류기는 숨겨진 텍스트, 조작된 이미지, 기만적 UI 요소 등 다양한 형태에 포함된 적대적 명령을 감지하며, 공격이 식별되면 Claude의 동작을 조정합니다. 최초 리서치 프리뷰 이후 Claude for Chrome에 적용되는 분류기를 개선했으며, 공격 시도 탐지 후 모델 동작을 유도하는 개입 방식도 함께 발전시켰습니다.
대규모 전문가 레드팀 운영. 보안 연구자들은 창의적인 공격 벡터를 발견하는 데 있어 자동화 시스템보다 꾸준히 뛰어난 성과를 보입니다. 내부 레드팀이 브라우저 에이전트의 취약점을 지속적으로 탐색하고 있으며, 업계 전반의 방어력을 벤치마킹하는 외부 Arena 방식 챌린지에도 참여하고 있습니다.
웹은 적대적 환경이며, 그 안에서 안전하게 작동하는 브라우저 에이전트를 구축하려면 끊임없는 경계가 필요합니다. 프롬프트 인젝션은 활발히 연구가 진행 중인 분야이며, 공격 기법이 진화함에 따라 방어 기술에 지속적으로 투자할 것입니다.
고객이 정보에 기반한 배포 결정을 내릴 수 있도록, 그리고 업계 전체가 이 핵심 과제에 더 많이 투자하도록 촉진하기 위해 앞으로도 발전 과정을 투명하게 공개하겠습니다.
프롬프트 인젝션에 대한 모델 및 제품의 방어력을 강화하는 데 함께하고 싶다면 팀 합류를 지원해 주세요.