Claude의 웹 검색 및 웹 페치 도구가 코드 실행을 활용해 검색 결과를 컨텍스트 윈도우에 전달하기 전에 동적으로 필터링하는 기능을 새롭게 지원합니다. 벤치마크 결과 정확도는 평균 11% 향상되었고, 입력 토큰 사용량은 24% 줄었습니다. API에서 즉시 사용할 수 있습니다.
Opus 4.6과 Sonnet 4.6 출시와 함께, 웹 검색 및 웹 페치 도구의 새 버전도 공개합니다. 이제 Claude는 웹 검색 중 코드를 직접 작성하고 실행해, 검색 결과를 컨텍스트 윈도우에 전달하기 전에 필터링할 수 있습니다. 이를 통해 정확도와 토큰 효율이 모두 향상됩니다.
웹 검색은 토큰을 매우 많이 소모하는 작업입니다. 기본 웹 검색 도구를 사용하는 에이전트는 쿼리를 실행하고, 검색 결과를 컨텍스트에 불러온 뒤, 여러 웹사이트에서 전체 HTML 파일을 가져와 이를 모두 검토한 다음 응답을 생성합니다. 그런데 검색을 통해 가져온 컨텍스트 중 상당 부분은 실제 응답과 무관한 내용이어서 응답 품질을 떨어뜨리는 요인이 됩니다.
이 문제를 해결하기 위해, 웹 검색 및 웹 페치 도구는 이제 쿼리 결과를 후처리하는 코드를 자동으로 작성하고 실행합니다. Claude는 전체 HTML 파일을 직접 검토하는 대신, 검색 결과를 컨텍스트에 불러오기 전에 동적으로 필터링해 관련 있는 내용만 남기고 나머지는 걸러냅니다.
이 기법은 다른 에이전틱(agentic) 워크플로에서도 효과가 있음을 이미 확인한 바 있으며, API에서 네이티브로 지원하기 위해 코드 실행, 프로그래매틱 툴 콜링(programmatic tool calling) 같은 도구도 추가해 왔습니다. 이번에는 동일한 기법을 웹 검색과 웹 페치에도 적용했습니다.
동적 필터링 적용 여부에 따른 웹 검색 성능을 Sonnet 4.6과 Opus 4.6에서 다른 도구 없이 단독으로 평가했습니다. BrowseComp과 DeepsearchQA, 두 벤치마크 모두에서 동적 필터링은 평균 11% 성능 향상을 보였고, 입력 토큰 사용량은 24% 줄었습니다.
BrowseComp: 단일 정답을 찾는 웹 검색
BrowseComp는 에이전트가 여러 웹사이트를 탐색해 온라인에서 찾기 어렵게 설계된 특정 정보를 얼마나 잘 찾아내는지 평가합니다. 동적 필터링 적용 후 Claude의 정확도는 크게 향상되어, Sonnet 4.6은 33.3%에서 46.6%로, Opus 4.6은 45.3%에서 61.6%로 올랐습니다.

DeepsearchQA: 복수 정답을 찾는 웹 검색
DeepsearchQA는 여러 정답이 존재하는 리서치 쿼리를 에이전트에게 제시하며, 웹 검색을 통해 모든 정답을 찾아야 합니다. 하나도 빠뜨리지 않고 체계적으로 다단계 검색을 계획하고 실행하는 능력을 평가하는 벤치마크입니다. 결과는 정밀도(precision)와 재현율(recall)을 균형 있게 반영하는 F1 점수로 측정되며, 반환된 답변의 정확성과 검색의 완전성을 동시에 평가합니다.
동적 필터링 적용 후 F1 점수는 Sonnet 4.6에서 52.6%에서 59.4%로, Opus 4.6에서 69.8%에서 77.3%로 향상되었습니다.

토큰 비용은 컨텍스트 필터링에 필요한 코드의 양에 따라 달라집니다. 가중치를 적용한 가격 기준 토큰 수는 두 벤치마크 모두에서 Sonnet 4.6은 감소했지만, Opus 4.6은 증가했습니다. 실제 비용을 정확히 파악하려면, 프로덕션에서 에이전트가 처리할 것으로 예상되는 웹 검색 쿼리를 대표 샘플로 구성해 직접 평가해 보시길 권장합니다.
Poe는 Quora가 운영하는 멀티모델 AI 플랫폼으로, 단일 인터페이스를 통해 수백만 명의 사용자에게 200개 이상의 모델을 제공합니다. Quora 내부 팀은 동적 필터링을 적용한 Opus 4.6을 평가한 결과, "다른 프런티어 모델들과 비교한 내부 평가에서 가장 높은 정확도를 달성했다"고 밝혔습니다. 제품 및 리서치 총괄 Gareth Jones는 이렇게 말했습니다. "이 모델은 컨텍스트에 raw HTML을 그대로 올려 추론하는 대신, Python 코드를 작성해 결과를 파싱하고 필터링하며 교차 검증합니다. 마치 실제 리서처처럼 작동하는 것입니다."
동적 필터링은 Claude API에서 Sonnet 4.6 및 Opus 4.6과 함께 새로운 웹 검색·웹 페치 도구를 사용할 때 기본으로 활성화됩니다. 기술 문서 검토나 인용 출처 확인처럼 복잡한 웹 검색 쿼리에서는 위에서 소개한 것과 유사한 성능 향상을 기대할 수 있습니다.
API 사용 방법은 다음과 같습니다:
{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"tools": [
{
"type": "web_search_20260209",
"name": "web_search"
},
{
"type": "web_fetch_20260209",
"name": "web_fetch"
}
],
"messages": [
{
"role": "user",
"content": "Search for the current prices of AAPL and GOOGL, then calculate which has a better P/E ratio."
}
]
}
토큰 집약적인 작업에서 에이전트 성능을 높이기 위해, 여러 도구도 이번에 정식 출시(GA)됩니다:
개선된 웹 검색·웹 페치와 함께, 코드 실행, 메모리, 프로그래매틱 툴 콜링, 툴 검색, 툴 사용 예시 기능이 모두 Claude 플랫폼에서 지금 바로 사용 가능합니다. API 문서를 참고해 시작해 보세요.