Claude의 사이버 방어 역량을 강화한 방법
AI 모델은 이제 이론이 아닌 실전에서 사이버 보안 업무에 활용되고 있습니다. 최전선 AI가 사이버 공격자의 도구로서 얼마나 유용한지 연구와 실무 경험을 통해 확인한 만큼, 우리는 방어 측이 코드와 운영 시스템의 취약점을 탐지·분석·수정하는 데 Claude를 더 잘 활용할 수 있도록 역량을 강화하는 데 집중해 왔습니다. 이 작업 덕분에 Claude Sonnet 4.5는 불과 두 달 전에 출시된 최전선 모델 Opus 4.1과 대등하거나 이를 능가하는 코드 취약점 발견 능력과 사이버 보안 기술을 갖추게 되었습니다. 방어자가 공격자의 속도에 뒤처지지 않으려면, AI를 적극 도입하고 실험하는 것이 핵심입니다.
우리는 지금이 AI가 사이버 보안에 미치는 영향의 변곡점이라고 판단합니다.
지난 수년간 우리 팀은 AI 모델의 사이버 보안 관련 역량을 면밀히 추적해 왔습니다. 초기에는 고급 사이버 보안 역량 측면에서 모델의 능력이 크게 두드러지지 않았습니다. 하지만 지난 1년여 사이 뚜렷한 변화가 감지되었습니다. 몇 가지 사례를 소개합니다:
올여름 진행된 DARPA AI Cyber Challenge에서는 각 팀이 Claude를 포함한 LLM을 활용해 수백만 줄의 코드를 분석하고 취약점을 패치하는 '사이버 추론 시스템(cyber reasoning system)'을 구축했습니다. 사전에 삽입된 취약점 외에도, 기존에 알려지지 않은 실제 취약점을 발견(그리고 때로는 패치)하는 성과를 거두었습니다. 대회 밖에서도 다른 최전선 AI 연구소들이 모델을 활용해 새로운 취약점을 발견하고 보고하고 있습니다.
동시에, Safeguards 업무의 일환으로 자사 플랫폼에서 AI를 악용해 공격 작전을 확대한 위협 행위자를 탐지·차단하기도 했습니다. Safeguards 팀은 최근 '바이브 해킹(vibe hacking)' 사례를 발견하고 차단했는데, 이는 한 사이버 범죄자가 Claude를 이용해 종전에는 팀 단위 인력이 필요했던 대규모 데이터 갈취 공격을 혼자 구축한 사건이었습니다. 또한 중국 APT 조직과 일치하는 특성을 보이는 행위자가 핵심 통신 인프라를 표적으로 삼아 Claude를 점점 더 정교한 첩보 작전에 활용하는 정황도 탐지하고 대응했습니다.
이러한 모든 증거는 사이버 보안 생태계가 중대한 변곡점에 도달했음을 시사하며, 이 시점부터 기술 발전이 급격히 빨라지거나 악용 사례가 급증할 수 있습니다.
따라서 지금이야말로 코드와 인프라를 보호하기 위한 AI의 방어적 활용을 가속해야 할 중요한 시점입니다. AI에서 비롯되는 사이버 우위를 공격자와 범죄자에게 내줘서는 안 됩니다. 악의적 공격자를 탐지·차단하는 데 지속적으로 투자하겠지만, 가장 확장성 있는 해법은 디지털 환경을 지키는 사람들—기업과 정부의 보안팀, 사이버 보안 연구자, 핵심 오픈소스 소프트웨어 유지보수자—에게 힘을 실어주는 AI 시스템을 구축하는 것이라고 생각합니다.
Claude Sonnet 4.5 출시를 준비하면서 바로 그 작업에 착수했습니다.
LLM의 규모가 커지면 '창발적 능력(emergent abilities)'—작은 모델에서는 나타나지 않았고, 학습 과정에서 명시적으로 목표로 설정하지도 않은 기술—이 출현합니다. 실제로 CTF(Capture-the-Flag) 대회에서 소프트웨어 취약점을 찾고 공략하는 Claude의 사이버 보안 역량은, 범용 AI 어시스턴트를 개발하는 과정에서 부수적으로 나타난 것입니다.
하지만 범용 모델의 발전만으로 방어자에게 충분한 무기를 쥐어주기에는 한계가 있습니다. AI와 사이버 보안의 교차점이 빠르게 변하고 있는 만큼, 코드 취약점 발견·패치 같은 핵심 기술에서 Claude를 더욱 강화하기 위해 전담 연구진을 배치했습니다.
이 연구의 성과가 Claude Sonnet 4.5에 반영되었습니다. 사이버 보안의 다양한 영역에서 Claude Opus 4.1에 필적하거나 이를 능가하면서도, 비용은 더 낮고 속도는 더 빠릅니다.
Sonnet 4.5를 개발하면서 소규모 연구팀이 코드베이스에서 취약점을 찾고, 패치를 생성하며, 시뮬레이션된 보안 인프라의 약점을 테스트하는 Claude의 역량 강화에 집중했습니다. 이러한 과제를 선택한 이유는 방어자에게 실질적으로 중요한 업무이기 때문입니다. 고급 익스플로잇 작성이나 악성코드 제작처럼 명백히 공격에 유리한 능력의 강화는 의도적으로 배제했습니다. 우리의 목표는 배포 전 안전하지 않은 코드를 발견하고, 이미 배포된 코드의 취약점을 찾아 수정할 수 있도록 모델을 지원하는 것입니다. 물론 이번에 다루지 못한 중요한 보안 과제도 많으며, 향후 방향은 글 말미에서 자세히 설명합니다.
연구 성과를 검증하기 위해 업계 표준 평가를 실시했습니다. 이를 통해 모델 간 명확한 비교가 가능하고, AI 발전 속도를 측정할 수 있으며—특히 외부에서 개발된 새로운 평가의 경우—자체 시험에만 최적화하지 않았는지 확인하는 좋은 지표가 됩니다.
평가를 진행하면서 특히 인상적이었던 점은 여러 차례 반복 실행하는 것의 중요성이었습니다. 대규모 평가 과제 세트에 대해 반복 실행하는 것이 계산 비용이 높더라도, 특정 실제 문제에 대한 의욕 있는 공격자나 방어자의 행동을 더 정확하게 반영합니다. 이렇게 하면 Claude Sonnet 4.5뿐만 아니라, 몇 세대 이전 모델에서도 인상적인 성능이 드러납니다.
1년 넘게 추적해 온 평가 중 하나가 CTF 대회 문제를 기반으로 한 벤치마크인 Cybench입니다.1 이 평가에서 Claude Sonnet 4.5는 Claude Sonnet 4는 물론 Claude Opus 4, 4.1 모델마저 크게 뛰어넘는 눈에 띄는 성능 향상을 보여줍니다. 특히 주목할 만한 점은, Sonnet 4.5가 과제당 1회 시도만으로 달성하는 성공 확률이, Opus 4.1이 과제당 10회 시도했을 때의 성공 확률보다 높다는 것입니다. 이 평가에 포함된 문제들은 비교적 복잡하고 오랜 시간이 소요되는 워크플로를 반영합니다. 예를 들어, 한 문제는 네트워크 트래픽을 분석하고, 그 안에서 악성코드를 추출한 뒤, 디컴파일과 복호화까지 수행해야 하는 과제였습니다. 숙련된 보안 전문가라면 최소 1시간, 경우에 따라 그 이상 걸릴 작업을 Claude는 38분 만에 해결했습니다.
Claude Sonnet 4.5에 Cybench 평가를 과제당 10회 시도하게 했을 때, 전체 문제의 76.5%를 성공적으로 풀었습니다. 이 수치가 특히 의미 있는 이유는, 불과 6개월 만에 성공률이 두 배로 뛰었기 때문입니다(2025년 2월 출시된 Sonnet 3.7의 10회 시도 성공률은 35.9%에 불과했습니다).

또 다른 외부 평가로 CyberGym에서 Claude Sonnet 4.5를 테스트했습니다. CyberGym은 에이전트가 (1) 취약점 유형에 대한 상위 수준 설명을 바탕으로 실제 오픈소스 프로젝트에서 기존에 발견된 취약점을 찾고, (2) 아직 알려지지 않은 새로운 취약점을 발견하는 능력을 평가하는 벤치마크입니다.2 CyberGym 팀은 이전에 Claude Sonnet 4가 공개 리더보드에서 가장 우수한 모델임을 확인한 바 있습니다.
Claude Sonnet 4.5는 Claude Sonnet 4와 Claude Opus 4를 모두 크게 상회합니다. CyberGym 공개 리더보드와 동일한 비용 제약(취약점당 LLM API 쿼리 비용 $2 이하)을 적용했을 때, Sonnet 4.5는 28.9%라는 새로운 최고 기록을 달성했습니다. 하지만 실제 공격자는 이런 제약을 받지 않습니다. 시도 횟수에 제한이 없고, 시도당 $2 이상을 쓸 수 있습니다. 제약을 해제하고 과제당 30회 시도를 허용하면, Sonnet 4.5는 전체 프로그램의 66.7%에서 취약점을 재현합니다. 상대적 비용은 높아지지만, 절대 비용—한 과제를 30회 시도하는 데 약 $45—은 여전히 매우 낮은 수준입니다.

마찬가지로 흥미로운 점은 Claude Sonnet 4.5의 신규 취약점 발견율입니다. CyberGym 리더보드에 따르면 Claude Sonnet 4는 대상의 약 2%에서만 새로운 취약점을 발견했지만, Sonnet 4.5는 5%에서 신규 취약점을 찾아냅니다. 30회 반복 시도 시에는 전체 프로젝트의 33% 이상에서 새로운 취약점을 발견합니다.

취약점을 수정하는 패치를 생성하고 검토하는 Claude의 능력에 대해서도 초기 연구를 진행하고 있습니다. 패치 작성은 취약점을 찾는 것보다 훨씬 어려운 작업인데, 원래 기능은 변경하지 않으면서 취약점만 정확히 제거하는 정밀한 코드 수정이 필요하기 때문입니다. 별도의 가이드나 명세 없이 모델이 코드베이스로부터 의도된 기능을 스스로 추론해야 합니다.
실험에서는 취약점에 대한 설명과 프로그램이 크래시할 당시의 정보를 바탕으로, CyberGym 평가 세트의 취약점 패치를 Claude Sonnet 4.5에 맡겼습니다. 자체 결과물을 Claude가 직접 평가하도록 하여, 제출된 패치를 인간이 작성한 참조 패치와 비교해 채점하게 했습니다. Claude가 생성한 패치의 15%가 인간 작성 패치와 의미적으로 동등하다고 판정되었습니다. 다만 이 비교 방식에는 한계가 있습니다. 취약점은 여러 가지 유효한 방법으로 수정할 수 있기 때문에, 참조 패치와 다르더라도 올바른 패치가 오탐(false negative)으로 처리될 수 있습니다.
가장 높은 점수를 받은 패치 일부를 수동으로 분석한 결과, CyberGym 평가 대상인 오픈소스 소프트웨어에 실제로 병합된 참조 패치와 기능적으로 동일함을 확인했습니다. 이 결과는 우리의 폭넓은 관찰과 일관된 패턴을 보여줍니다: Claude는 전반적인 능력이 향상되면서 사이버 보안 관련 기술도 함께 발전합니다. 초기 결과에 따르면, 패치 생성은—이전에 취약점 발견이 그랬듯—집중적인 연구를 통해 강화할 수 있는 창발적 능력입니다. 다음 단계는 확인된 과제들을 체계적으로 해결하여 Claude를 신뢰할 수 있는 패치 작성자이자 검토자로 만드는 것입니다.
실제 방어 보안은 평가 환경이 포착할 수 있는 것보다 훨씬 복잡합니다. 실제 문제가 더 복잡하고, 난이도가 더 높으며, 구현 세부 사항이 매우 중요하다는 점을 거듭 확인했습니다. 따라서 실제로 방어에 AI를 활용하는 조직과 협력하고, 우리의 연구가 어떻게 그들에게 도움이 될 수 있는지 피드백을 받는 것이 중요합니다. Sonnet 4.5 출시를 앞두고, 취약점 수정, 네트워크 보안 테스트, 위협 분석 등 실제 보안 과제에 이 모델을 적용한 여러 조직과 협력했습니다.
HackerOne의 최고제품책임자(CPO) Nidhi Aggarwal은 "Claude Sonnet 4.5 덕분에 Hai 보안 에이전트의 평균 취약점 접수 시간이 44% 단축되고 정확도는 25% 향상되어, 기업의 리스크를 높은 신뢰도로 줄일 수 있게 되었습니다"라고 밝혔습니다. CrowdStrike의 데이터 사이언스 수석 부사장 겸 수석 과학자 Sven Krasser는 "Claude는 레드 팀 활동에서 큰 가능성을 보여줍니다. 창의적인 공격 시나리오를 생성해 공격자 기법 연구를 가속화하고, 이를 통해 엔드포인트, ID, 클라우드, 데이터, SaaS, AI 워크로드 전반의 방어 체계를 강화하고 있습니다"라고 말했습니다.
이러한 현장의 목소리는 Claude를 활용한 실전 방어 업무의 잠재력에 대한 확신을 더욱 높여주었습니다.
Claude Sonnet 4.5는 의미 있는 발전이지만, 많은 역량이 아직 초기 단계이며 숙련된 보안 전문가와 기존 프로세스를 대체할 수준에는 이르지 못했음을 잘 알고 있습니다. 앞으로도 모델의 방어 관련 역량을 지속적으로 개선하고, 자사 플랫폼을 보호하는 위협 인텔리전스와 완화 조치를 강화해 나갈 것입니다. 사실 이미 조사와 평가 결과를 활용해 유해한 사이버 행위에 모델이 오용되는 것을 탐지하는 능력을 지속적으로 개선하고 있습니다. 여기에는 조직 수준의 요약(summarization) 기법을 활용해 개별 프롬프트와 응답을 넘어 전체 맥락을 파악하는 것이 포함됩니다. 이를 통해 이중 용도 행위와 악의적 행위를 구분할 수 있으며, 특히 대규모 자동화 활동이 수반되는 가장 심각한 오용 사례에 효과적입니다.
하지만 우리는 지금이야말로 가능한 한 많은 조직이 AI로 보안 태세를 개선하는 방법을 실험하고, 그 성과를 측정할 평가 체계를 마련해야 할 때라고 생각합니다. Claude Code의 자동 보안 리뷰는 AI를 CI/CD 파이프라인에 통합할 수 있음을 보여주는 좋은 사례입니다. 특히 보안운영센터(SOC) 자동화, 보안 정보 및 이벤트 관리(SIEM) 분석, 보안 네트워크 엔지니어링, 능동 방어 등의 영역에서 연구자와 보안팀이 모델을 적용해 볼 수 있도록 지원하고 싶습니다. 또한 모델 평가를 위한 서드파티 생태계가 성장하는 가운데, 방어 역량을 측정하는 평가가 더 많이 만들어지고 활용되기를 바랍니다.
하지만 방어자에게 유리한 AI를 만들고 도입하는 것만으로는 충분하지 않습니다. 디지털 인프라의 회복력을 높이고, 새로운 소프트웨어를 설계 단계부터 안전하게 만드는 논의—최전선 AI 모델의 도움을 받는 것을 포함해—도 필요합니다. AI가 사이버 보안에 미치는 영향이 미래의 우려에서 현재의 과제로 전환되는 이 시점에, 산업계, 정부, 시민사회와 함께 이러한 논의를 이어가기를 기대합니다.
이 글은 2025년 9월 29일 Frontier Red Team 블로그 red.anthropic.com에 처음 게시되었습니다.