Anthropic은 최신 모델인 Claude Mythos(시스템 카드 PDF)를 오늘 일반에 공개하지 않았다. 대신 새롭게 발표한 Project Glasswing을 통해, 극히 제한된 범위의 프리뷰 파트너에게만 접근을 허용했다.
이 모델은 Claude Opus 4.6과 유사한 범용 모델이지만, Anthropic은 사이버 보안 연구 분야에서의 성능이 워낙 뛰어나 소프트웨어 업계 전반이 대비할 시간이 필요하다고 밝혔다.
Mythos 프리뷰는 이미 수천 건의 고위험 취약점을 발견했으며, 주요 운영체제와 웹 브라우저 전반에서도 취약점이 확인됐다. AI 발전 속도를 감안하면, 이러한 능력이 확산되는 데는 그리 오랜 시간이 걸리지 않을 것이다. 안전한 방식으로 배포하겠다는 의지가 없는 행위자에게까지 퍼질 가능성도 배제할 수 없다.
[...]
Project Glasswing 파트너사들은 Claude Mythos 프리뷰에 접근해 핵심 시스템의 취약점과 보안 약점을 찾아 수정하는 작업을 수행하게 된다. 이들 시스템은 전 세계 공유 사이버 공격 표면의 상당 부분을 차지한다. Anthropic은 이 작업이 로컬 취약점 탐지, 바이너리 블랙박스 테스트, 엔드포인트 보안 강화, 시스템 침투 테스트 등에 집중될 것으로 예상하고 있다.
"우리 모델은 너무 위험해서 공개할 수 없다"는 말은 신모델을 둘러싼 화제를 끌어모으는 데 효과적인 방식이지만, 이번 경우만큼은 그 신중함이 충분히 납득된다.
불과 며칠 전(지난 금요일), 나는 이 블로그에 ai-security-research 태그를 새로 만들었다. 최신 LLM의 취약점 연구 역량에 경종을 울리는 신뢰할 만한 보안 전문가들의 목소리가 눈에 띄게 늘고 있다는 점을 반영한 것이다.
리눅스 커널 개발자 Greg Kroah-Hartman의 발언이다:
몇 달 전만 해도 우리는 소위 'AI 슬롭(AI slop)'이라 부르는 것들을 받고 있었습니다. 명백히 틀리거나 품질이 낮은 AI 생성 보안 리포트였죠. 웃음거리였고, 딱히 걱정할 수준도 아니었습니다.
그런데 한 달 전, 무언가가 달라졌습니다. 세상이 바뀐 겁니다. 이제는 진짜 리포트가 들어옵니다. 모든 오픈소스 프로젝트에 AI로 작성된 보안 리포트가 들어오고 있는데, 내용이 정확하고 실제로 유효합니다.
curl 개발자 Daniel Stenberg의 말도 들어보자:
오픈소스 보안에서 AI가 가져온 문제는 AI 슬롭의 쓰나미에서... 그냥 보안 리포트의 쓰나미로 바뀌었습니다. 슬롭은 줄었지만 리포트 수는 폭증했고, 그중 상당수가 정말 수준 높습니다.
요즘은 하루에 몇 시간씩 이것만 처리하고 있습니다. 정말 버겁습니다.
Thomas Ptacek은 Anthropic의 Nicholas Carlini와 나눈 팟캐스트 대화에서 영감을 받아 Vulnerability Research Is Cooked라는 글을 발표했다.
Anthropic은 Glasswing 프로젝트를 소개하는 5분짜리 인터뷰 영상을 공개했다. 영상에 출연한 Nicholas Carlini의 발언 중 주목할 만한 부분을 발췌한다(강조는 필자):
이 모델은 여러 취약점을 연결해 활용하는 능력이 있습니다. 각각 따로는 큰 위협이 되지 않는 취약점 두 개를 조합하는 것을 넘어, 세 개, 네 개, 때로는 다섯 개의 취약점을 순차적으로 연결해 정교한 공격 결과를 만들어내는 익스플로잇을 구성할 수 있습니다. [...]
저는 지난 몇 주 동안 제 인생 전체를 합친 것보다 더 많은 버그를 발견했습니다. 모델을 이용해 여러 오픈소스 코드를 스캔했는데, 가장 먼저 집중한 것은 운영체제였습니다. 전체 인터넷 인프라의 기반이 되는 코드이기 때문입니다. OpenBSD에서는 27년 전부터 존재해온 버그를 발견했는데, 데이터 몇 조각만 전송해도 OpenBSD 서버를 다운시킬 수 있는 취약점이었습니다. Linux에서는 권한이 없는 일반 사용자가 로컬 머신에서 특정 바이너리를 실행하는 것만으로 관리자 권한을 탈취할 수 있는 취약점을 다수 발견했습니다. 발견된 버그는 모두 해당 소프트웨어를 관리하는 메인테이너에게 즉시 알렸고, 그들은 패치를 배포해 현재 소프트웨어를 사용 중인 누구도 해당 공격에 노출되지 않도록 조치했습니다.
OpenBSD 7.8 정오표 페이지에서 다음 내용을 확인했다:
025: RELIABILITY FIX: March 25, 2026 All architectures
잘못된 SACK 옵션이 포함된 TCP 패킷이 커널을 크래시시킬 수 있었습니다.
OpenBSD CVS 저장소의 GitHub 미러에서 해당 변경 이력을 추적해 git blame으로 확인해봤다(지금도 CVS를 쓰고 있다는 게 놀랍다!):
>
역시나, 주변 코드는 27년 전 작성된 것이었다.
Nicholas가 언급한 Linux 취약점이 정확히 무엇인지는 특정하기 어렵지만, 최근 Michael Lynch가 다룬 NFS 취약점 일 가능성이 있다.
여기에는 단순한 소문이 아닌 실제 근거가 충분하다. 수십 년 된 소프트웨어에서 취약점이 발견되는 것 자체는 놀라운 일이 아니다. 대부분 C로 작성된 코드이기도 하고. 하지만 달라진 것이 있다. 최신 프론티어 LLM 기반의 코딩 에이전트들이 지칠 줄 모르고 끊임없이 이런 문제를 파헤치고 있다는 사실이다.
지난 금요일, 나는 이것이 업계 전반의 대격변이 될 수 있겠다는 생각이 들었다. 쏟아질 취약점 공세에 앞서 대응하려면 막대한 시간과 자금을 투자해야 할 수도 있다고 느꼈다. Project Glasswing은 "1억 달러 규모의 사용 크레딧과 오픈소스 보안 단체에 대한 400만 달러의 직접 기부"를 포함하며, AWS, Apple, Microsoft, Google, Linux Foundation이 파트너로 참여한다. OpenAI도 함께한다면 더할 나위 없을 것 같다. GPT-5.4는 이미 보안 취약점 탐지 분야에서 높은 평가를 받고 있고, 그보다 더 강력한 모델도 멀지 않은 시점에 나올 것이다.
신뢰 파트너가 아닌 우리 같은 사람들에게는 아쉬운 소식도 있다:
Claude Mythos 프리뷰를 일반에 공개할 계획은 없습니다. 다만 궁극적인 목표는 사용자들이 Mythos급 모델을 안전하게 대규모로 활용할 수 있는 환경을 만드는 것입니다. 사이버 보안 목적뿐 아니라, 이처럼 고성능 모델이 가져올 수 있는 다양한 혜택을 위해서이기도 합니다. 이를 위해서는 모델의 가장 위험한 출력을 감지하고 차단하는 사이버 보안 및 기타 안전장치를 발전시켜 나가야 합니다. 앞으로 출시될 Claude Opus 모델에 새로운 안전장치를 적용해, Mythos 프리뷰만큼의 위험 수준을 갖지 않는 모델로 이를 개선하고 정교화해 나갈 계획입니다.
이 정도라면 받아들일 수 있다. 보안 위험이 실제로 심각하다고 생각하고, 신뢰할 수 있는 팀이 먼저 대비할 시간을 갖는 것은 합리적인 선택이다.
현재 보이는 글은 제 블로그의 장문 아티클만 모은 것입니다. 모든 포스트를 받아보려면 /atom/everything/을 구독하거나, 다른 구독 옵션을 확인해보세요.