Anthropic이 오늘 Claude Opus 4.8을 출시했다. 이번 릴리스에서 가장 눈길을 끄는 부분은 공식 발표문에 포함된 아래 내용이다:
Opus 4.8은 이전 모델 대비 작지만 확실한 개선을 이룬 모델이다. 아직 갈 길이 남아 있다. 현재 Opus와 유사한 성능을 더 낮은 비용으로 제공하는 모델을 개발·출시하기 위해 작업 중이다.
AI 기업이 신규 릴리스를 이전 모델 대비 소폭 개선에 그쳤다고 솔직하게 밝히는 모습은 정말 반갑다!
솔직함이 이번 발표의 키워드인 것 같다. 발표문에서 또 하나 눈에 띄는 내용이 있다:
Opus 4.8에서 가장 두드러진 개선점 중 하나는 정직성이다. Anthropic은 모든 모델이 정직하게 동작하도록, 예컨대 근거 없는 주장을 하지 않도록 훈련시킨다. 그러나 AI 모델이 공통적으로 지닌 문제가 있다. 근거가 부족한 상황에서도 작업이 잘 진행되고 있다고 자신 있게 단언하는 경향이다. 얼리 테스터들의 보고에 따르면, Opus 4.8은 이전 모델에 비해 작업의 불확실성을 더 적극적으로 표시하고 근거 없는 주장은 줄어든 것으로 나타났다. 이는 평가 결과로도 뒷받침된다. Opus 4.8은 이전 모델보다 자신이 작성한 코드의 결함을 무언급으로 넘길 가능성이 약 4배 낮은 것으로 확인됐다.
해당 링크의 시스템 카드에는 다음 내용도 포함되어 있다:
Claude Opus 4.8은 사실 기반 환각(hallucination)을 가장 직접적으로 측정하는 지표인 오답률에서 전 벤치마크에 걸쳐 6개 모델 중 가장 낮은 수치를 기록했다. 이는 더 많은 문제를 정확히 맞히는 방식이 아니라, 불확실한 질문에 답하지 않는 방식으로 달성한 결과다.
4.7 대비 크게 달라진 점은 없다.
가격은 Opus 4.5/4.6/4.7과 동일하게 입력 100만 토큰당 $5, 출력 100만 토큰당 $25다. 패스트 모드는 이 가격의 두 배로, 이전 모델 대비 상당히 인하된 수준이다. 4.6/4.7의 패스트 모드는 $30/$150으로 유지된다. 단, 패스트 모드는 리서치 프리뷰 참여 기관에만 제공된다. 이용을 원하면 "담당 계정 매니저에게 문의하라"고 안내되어 있다.
신뢰 가능한 지식 컷오프와 학습 데이터 컷오프 모두 2026년 1월로, 4.7과 동일하다.
컨텍스트 윈도우는 여전히 100만 토큰이며, 최대 출력은 128,000 토큰이다.
Claude Opus 4.8의 새로운 기능 문서에는 흥미로운 세부 내용이 담겨 있다. 특히 아래 두 가지가 눈에 들어왔다:
대화 중간 시스템 메시지. Claude Opus 4.8은
messages배열의 사용자 턴 직후에role: "system"메시지를 허용한다(배치 규칙 적용). 덕분에 오랫동안 진행 중인 대화에서 전체 시스템 프롬프트를 다시 작성하지 않고도 업데이트된 지시사항을 나중에 추가할 수 있다. 이를 통해 초반 턴의 프롬프트 캐시 히트를 유지하면서 에이전틱 루프의 입력 비용도 줄일 수 있다.
Anthropic Python SDK의 이 업데이트도 참고할 만하다. 대화 중간에 시스템 프롬프트를 조정할 수 있다는 기능은 상당히 강력해 보인다. 대화당 시스템 프롬프트를 하나만 허용하는 내 LLM 라이브러리의 추상화 구조와 충돌하지 않을까 걱정했는데, 최근 재설계 덕분에 별 문제 없이 처리된다는 사실을 확인했다.
프롬프트 캐시 최소 길이 인하. Claude Opus 4.8의 캐시 가능한 프롬프트 최소 길이는 1,024 토큰으로, Claude Opus 4.7보다 낮아졌다.
확인해보니 4.7의 최솟값은 4,096 토큰이었다.
다음은 5가지 사고 수준 low, medium, high, xhigh, max으로 생성한 자전거 타는 펠리컨 이미지들이다:
이번에는 LLM CLI로 실행한 뒤 로그를 마크다운으로 내보내고, Claude Opus 4.8에게 해당 마크다운을 렌더링하되 svg 펜스드 코드 블록을 페이지에 SVG로 표시하는 HTML 도구를 만들어 달라고 요청했다.
(나중에 Codex의 GPT-5.5 xhigh로 XSS 취약점을 제거하는 코드 업데이트를 진행했다. Claude에게 요청했어도 충분히 할 수 있었겠지만, 요즘 코드 보안만큼은 GPT-5.5에 의지하는 편이다.)
max 수준이 단연 최고였지만, 입력 25개, 출력 17,167 토큰에 총 43센트가 들었다!
지금 보시는 콘텐츠는 블로그의 장문 아티클만 포함되어 있습니다. 모든 포스트를 받아보려면 /atom/everything/을 구독하거나, 다른 구독 옵션을 확인해 보세요.