이 보고서는 Opus 4.5 출시 직전인 2025년 11월 Claude 사용 현황을 다각도로 조명하기 위해 새로운 AI 활용 지표를 도입했습니다.
이 보고서는 Opus 4.5 출시 직전인 2025년 11월 기준 Claude 사용 현황을 다각적으로 파악하기 위해 새로운 AI 활용 지표를 도입한다. 이 '프리미티브(primitive)'는 Claude가 어떻게 사용되는지를 측정하는 단순하고 기초적인 척도로, 익명화된 Claude.ai 및 자사(1P) API 대화 기록에 대해 Claude에게 구체적인 질문을 던져 산출한다. 이 프리미티브는 AI의 경제적 영향과 관련된 다섯 가지 차원을 다룬다: 사용자와 AI의 숙련도, 과업 복잡성, Claude에게 부여된 자율성 수준, Claude의 성공률, 그리고 Claude가 개인용·교육용·업무용 중 어떤 목적으로 활용되는지의 여부이다.
분석 결과는 뚜렷한 지역별 차이, 실제 환경에서의 AI 과업 수행 범위(task horizon) 추정치, 그리고 Claude의 거시경제적 영향을 재평가할 수 있는 근거를 제시한다.
이번 보고서와 함께 공개하는 데이터는 역대 가장 포괄적인 수준으로, AI 활용의 새로운 다섯 가지 차원, 소비자 및 기업의 사용 현황, Claude.ai의 국가·지역별 세부 분석을 포함한다.
1장에서는 2025년 9월에 발표한 이전 경제 지표 보고서(Economic Index report)의 주요 발견을 재검토한다. 핵심 결과는 다음과 같다:
상당한 집중도가 여전히 남아 있지만, 지난 보고서 이후 Claude 사용은 미국 주별로 눈에 띄게 균등해졌다. 이 추세가 지속된다면 2~5년 내에 전국적으로 1인당 사용량이 평준화될 것으로 예상된다.
2장에서는 새로운 경제 프리미티브의 도입 배경과 선정·운용 방식, 그리고 한계를 다룬다. 아울러 외부 벤치마크와 비교했을 때 우리의 프리미티브가 실제 사용 패턴의 방향성을 정확하게 포착한다는 근거도 제시한다. 3장과 4장에서는 이 프리미티브를 활용하여 도입과 생산성에 대한 시사점을 심층 분석한다. 주요 결과는 다음과 같다:
이러한 결과는 AI가 현재 경제에 어떤 영향을 미치고 있는지 새로운 관점을 제시한다. 과업의 성공률을 파악하면 어떤 과업이 자동화될 수 있는지, 특정 직업이 얼마나 영향을 받는지, 노동 생산성이 어떻게 변할지를 보다 정확하게 예측할 수 있다. 사용자 교육 수준에 따른 성과 차이를 측정하면 불평등 효과에 대한 시사점도 도출할 수 있다.
실제로 입력과 출력의 교육 수준 간 밀접한 상관관계는, 도입률과 무관하게 교육 수준이 높은 국가가 AI 혜택을 더 잘 누릴 수 있는 위치에 있을 수 있음을 시사한다.
이번 데이터 공개는 연구자와 대중이 AI의 경제적 함의를 보다 깊이 이해하고, 이 혁신적 기술이 이미 미치고 있는 영향을 다양한 관점에서 탐구할 수 있도록 하기 위함이다.
프론티어 AI 모델의 성능이 빠르게 향상되고 도입도 급속히 이루어지고 있기에, 사람과 기업이 이러한 시스템을 어떻게 사용하는지, 그리고 이 사용이 경제 전반에 어떤 의미를 갖는지 정기적으로 점검하는 것이 중요하다.1
이 장에서는 Opus 4.5 출시 직전인 2025년 8월부터 11월까지 Claude 사용 및 확산 패턴의 변화를 분석한다. 네 가지 핵심 관찰 결과는 다음과 같다:
프론티어 LLM은 현대 경제의 모든 측면과 관련된 인상적인 범위의 역량을 갖추고 있음에도, Claude 사용은 여전히 소수의 과업에 크게 집중되어 있다. 약 1년 전과 비교해 Claude.ai의 소비자 사용은 소폭 더 집중되었다: 상위 10개 O*NET 과업에 배정된 대화 비율은 2025년 11월 24%로, 8월보다 1%p, 2025년 1월의 21%보다 높아졌다. 2025년 11월 기준 가장 많이 나타난 과업인 '소프트웨어 오류 수정(modifying software to correct errors)'은 그 자체로 전체 사용량의 6%를 차지했다.
지난 Anthropic 경제 지표 보고서에서 1P API 고객을 통해 기업 도입 패턴을 추적하기 시작했다. 상위 10개 과업은 8월 API 기록의 28%에서 11월 32%로 증가했다. 소수 과업에 대한 집중도 상승은 모델이 더 다양한 과업을 처리할 수 있게 되었음에도 가장 높은 가치를 지닌 활용 사례가 계속해서 압도적인 경제적 가치를 창출하고 있음을 시사한다. Claude.ai와 마찬가지로 API 고객의 가장 보편적인 과업은 소프트웨어 오류 수정이었으며, 전체 기록의 10분의 1을 차지했다.

실제로 소프트웨어 오류 수정과 같은 컴퓨터·수리 관련 과업은 전체 Claude 사용에서 계속 지배적이며, Claude.ai 대화의 3분의 1, 1P API 트래픽의 절반 가까이를 차지한다. 다만 Claude.ai에서 이러한 지배력은 다소 약해졌다: 주로 코딩 관련인 이 과업에 배정된 Claude.ai 대화 비율은 2025년 3월 최고치 40%에서 2025년 11월 34%로 하락했다. 반면 1P API 트래픽에서 컴퓨터·수리 과업에 배정된 기록 비율은 2025년 8월 44%에서 11월 46%로 소폭 상승했다(그림 1.2).

2025년 11월 Claude.ai 사용에서 두 번째로 큰 비중을 차지한 분야는 교육·도서관(Educational Instruction and Library) 카테고리였다. 이는 주로 학업 과제·복습 지원 및 교육 자료 개발에 해당한다. 이러한 사용은 첫 보고서 이후 꾸준히 증가하여, 2025년 1월 Claude.ai 대화의 9%에서 11월 15%로 상승했다.
2025년 8월에서 11월 사이에 Claude.ai에서 예술·디자인·엔터테인먼트·스포츠·미디어 과업의 사용 비율이 증가했는데, 이는 글쓰기 관련 대화—주로 교정(copyediting)과 소설 작품의 작성 및 수정—에서 Claude가 활용되는 비율이 늘었기 때문이다. 디자인·글쓰기 관련 과업의 이러한 증가세는 이전 보고서들에서 지속적으로 나타나던 감소 추세를 뒤집었다. Claude.ai와 API 고객 모두에서 생명·물리·사회과학 관련 과업에 Claude가 활용된 대화/기록 비율은 감소했다.
API 고객 측에서 가장 주목할 만한 변화는 사무·행정 지원 관련 과업에 배정된 기록 비율이 8월 3%p에서 2025년 11월 13%로 상승한 점이다. API 사용이 자동화 위주라는 점을 고려하면, 이는 기업이 이메일 관리, 문서 처리, 고객 관계 관리, 일정 조율 등 정형화된 백오피스 워크플로 자동화에 Claude를 점점 더 많이 활용하고 있음을 시사한다.4
AI가 경제에 미치는 영향은 Claude가 어떤 과업에 사용되는지뿐 아니라, 사용자가 기저 모델 역량에 접근하고 활용하는 방식에도 달려 있다. 첫 번째 보고서부터 대화를 다섯 가지 상호작용 유형으로 분류해 왔으며, 이를 자동화와 증강이라는 두 가지 큰 범주로 묶고 있다.5
그림 1.3은 1년 전 데이터 수집을 시작한 이후 자동화 대 증강 사용이 어떻게 변화해 왔는지를 보여준다. 2025년 1월에는 증강 사용이 우세하여 대화의 56%가 증강, 41%가 자동화로 분류되었다.6 2025년 8월에는 증강보다 자동화로 분류된 대화가 더 많아졌다.
이는 모델 성능과 플랫폼 기능의 급격한 개선과 동시에 사용자들이 과업을 점점 더 전적으로 Claude에게 위임하는 방향으로 이동했음을 시사하는 주목할 만한 변화였다. 이는 자동화로 분류되는 '지시형(directive)' 협업 모드에서 뚜렷하게 나타났다. 지시형 대화란 사용자가 Claude에게 과업을 주면 최소한의 주고받기로 완료하는 방식이다. 2025년 1월에서 8월 사이에 이러한 지시형 대화의 비율은 27%에서 39%로 상승했다.7
3개월 후인 2025년 11월에는 지시형 대화 비율이 7%p 하락한 32%를 기록하며, Claude.ai에서 증강이 자동화보다 다시 우세해졌다. 그럼에도 자동화 비율은 이 지표를 처음 추적하기 시작한 약 1년 전과 비교하면 여전히 높은 수준이어서, 기저 추세는 여전히 자동화를 향하되 8월의 급등이 그 속도를 과대평가했던 것으로 보인다.
Claude.ai에서 디자인, 경영, 교육 관련 사용이 늘어나면서 소프트 스킬 활용으로의 전환 증거가 일부 관찰되지만, 11월의 증강 사용 증가는 전반적으로 광범위하게 나타났다(그림 1.4). 증강 사용 증가는 주로 사용자가 Claude와 반복적으로 과업을 수행하는 '과업 반복(task iteration)' 모드가 주도했으며, Claude에게 개념 설명을 요청하는 '학습(learning)' 모드의 기여는 상대적으로 적었다. 그림 1.5에서는 O*NET 과업 및 Claude에 대한 요청의 상향식(bottom-up) 분류 기준으로 가장 보편적인 3가지 상호작용 모드와 연관된 주요 단어를 확인할 수 있다.



이전 보고서에서 특정 지역의 Claude 사용이 생산가능인구 대비 과대 또는 과소 대표되는 정도를 측정하는 Anthropic AI 사용 지수(AUI)를 도입했다. AUI의 정의는 다음과 같다:
AUI가 1을 초과하면 해당 국가가 인구만으로 예측되는 수준보다 Claude를 더 집중적으로 사용함을 의미하고, 1 미만이면 예상보다 낮은 사용량을 나타낸다. 예를 들어 덴마크의 AUI는 2.1로, 전 세계 생산가능인구에서 차지하는 비율 대비 약 2배의 비율로 Claude를 사용하고 있다.
전 세계 Claude 사용에서 핵심적인 사실은 소수의 국가에 사용이 압도적으로 집중되어 있다는 것이다. 전 세계적 관점에서 2025년 8월과 11월 사이에 이 점에서 큰 변화는 없었다. 실제로 그림 1.6의 왼쪽 패널에서 볼 수 있듯이 국가별 AUI 집중도는 지난 보고서와 이번 보고서 사이에 사실상 변화가 없었다.
반면 미국 주별로는 2025년 8월에서 11월 사이에 사용이 더 균등하게 분포되었다: 평등도를 나타내는 표준 척도인 지니 계수가 0.37에서 0.32로 하락했다. 단기 변화 해석에는 신중해야 하지만, 이는 모든 주의 AUI가 1이고 지니 계수가 0인 완전 평등 상태를 향한 상당히 큰 변화이다. 미국의 지니 계수가 3개월마다 0.05씩 계속 하락한다면, 약 2년 후에 사용 평준화가 이루어질 것이다.

미국 내와 전 세계에서 사용 패턴을 형성하는 요인은 무엇인가? 이전 보고서에서는 전 세계적으로 소득 격차가 핵심 역할을 한다고 강조했다: 국가별 Claude 사용의 차이는 대부분 1인당 GDP 차이로 설명된다. 3장에서는 소득이 사용 강도뿐 아니라 전 세계 사용 패턴을 형성하는 데 미치는 중요성을 재검토한다.
미국 내에서는 소득이 사용량을 예측하는 명확한 변수가 아니다. 대신 가장 중요한 것은 각 주의 노동력 구성, 즉 노동력이 과업 수준 사용에서 반영되는 Claude의 역량과 얼마나 잘 부합하는가이다. 워싱턴 D.C., 버지니아, 워싱턴 주처럼 컴퓨터·수리 직종 종사자 비율이 높은 주일수록 1인당 사용량이 높은 경향이 있다. 정량적으로, 주 내 IT 종사자 비율이 1% 증가할 때 1인당 사용량은 0.36% 높아지며(그림 1.7), 이것만으로도 주 간 AUI 변동의 거의 3분의 2가 설명된다.

IT 종사자가 많은 주에서 Claude 사용이 높으리라는 것은 직관적으로 예상할 수 있지만, 이 패턴은 보다 일반적으로 성립한다: 미국 노동력 대비 Claude 사용이 과대 대표되는 직종(예: 예술·디자인·엔터테인먼트·스포츠·미디어)의 종사자가 많거나, Claude 사용이 국민경제 대비 낮은 직종(예: 운송·자재이동)의 종사자가 상대적으로 적은 주일수록 1인당 사용량이 높다. 이는 각 주 노동력 구성과 전 세계 Claude 사용 구성 간의 KL 발산을 산출하면 확인할 수 있다. KL 발산이 낮은, 즉 노동력이 Claude 사용 패턴과 더 유사한 주일수록 1인당 사용량이 높은 경향이 있다.
노동력 구성의 차이가 미국 내 지역별 도입을 형성하는 데 일정 역할을 하는 것으로 보이지만, 초기 증거에 따르면 Claude는 역사적 선례가 예측하는 것보다 상당히 빠르게 확산되고 있다. 경제적으로 중요한 기술은 역사적으로 미국 전역에 완전히 확산되기까지 약 반세기가 걸렸다(Kalanyi et al., 2025). 반면 2025년 11월의 Claude 도입률을 3개월 전과 비교하면, AUI로 측정한 미국 주별 1인당 도입 평준화가 2~5년 내에 달성될 수 있을 것으로 추정된다. 다만 이 추정은 불확실성이 크며, 추정의 정밀도로는 훨씬 느린 확산 속도를 배제할 수 없다.
이 추정은 간단한 확산 모형을 통해 도출하며, 그 개요는 다음과 같다. 확산을 1인당 사용량이 평준화된 공통 정상 상태, 즉 각 주 s의 AUI가 1인 상태를 향한 비례적 수렴으로 모형화한다:
이 모형에서 AUI의 정상 상태(AUI = 1) 대비 로그 편차는 3개월마다 β만큼 감소하며, 이는 반감기가 ln(.5)/ln(β)분기임을 의미한다. 예를 들어 분기별 데이터에서 β = 0.99이면 반감기는 약 17년이다. 이를 구체적으로 설명하면, 초기 AUI가 2일 때 17년 후 약 1.4로, 50년 후 약 1.1로 하락한다. 20세기 경제적으로 중요한 기술의 확산 속도와 유사한 수준이므로 β = 0.99를 합리적인 벤치마크로 설정한다.
이 수렴 모형에서 도출되는 회귀분석 사양은 다음과 같다8:
이 방정식을 단순 최소자승법(OLS)으로 추정하면 β̂ ≈ 0.77이 산출된다. 각 주의 노동력으로 가중한 가중최소자승법(WLS)으로는 β̂ ≈ 0.76이다(그림 1.8). 두 추정치 모두 통상적인 유의 수준에서 1과 통계적으로 구별된다. 액면 그대로 해석하면, 이 추정치는 각 주의 AUI가 1과의 격차를 대부분 좁히는 데 2년 남짓이면 충분함을 시사한다.

이러한 방식의 수렴 추정에서 우려되는 점은 AUI 추정치에 표본 잡음이나 확산과 무관한 기타 변동이 포함되어 있다는 것이다. 이는 전형적인 감쇠 편향(attenuation bias)을 유발할 수 있다: AUI가 실제로 변하지 않더라도 β 추정치가 1보다 상당히 낮게 나올 수 있다.
이를 해결하기 위해 2단계 최소자승법(2SLS)을 사용하여, 2025년 8월 AUI의 로그값에 대해 각 주의 노동력 구성—전체 Claude 사용 패턴과의 유사성으로 측정—을 도구변수로 활용했다. 이 도구변수의 논리는 다음과 같다: 노동력 구성은 Claude 사용의 강력한 예측 변수이며(적합성), 독립적으로 측정되므로 AUI 추정치의 표본 잡음과 상관관계가 없을 것으로 기대된다(타당성). 앞서 언급했듯이, Claude 고사용 직종의 종사자가 많은 주일수록 체계적으로 높은 1인당 사용량을 보인다.
2SLS 추정 결과는 다소 느린 수렴을 시사한다: 비가중 β̂ ≈ 0.89, 각 주의 생산가능인구로 가중한 경우 β̂ ≈ 0.86이다. 다만 이 추정치는 정밀도가 낮으며, 전자만이 10% 유의 수준에서 1과 통계적으로 구별된다. OLS보다 느린 수렴을 시사하지만, 2SLS 추정치도 여전히 빠른 확산을 의미한다: 각 주의 AUI 로그 편차가 90% 축소되는 데 4~5년이면 충분하다.
다만 우리의 추정은 3개월간의 데이터에만 기반한다. 2SLS 사양이 표본 잡음 문제를 완화하는 데 도움이 될 수 있지만, 상당한 불확실성이 남아 있다. 확산 속도에 관한 이 질문은 향후 보고서에서 재검토할 예정이다.
1 이전 보고서와 마찬가지로, 모든 분석은 개인정보 보호 기법에 기반한다. 보고서 전반에 걸쳐 Claude.ai Free, Pro, Max 대화에서 무작위 추출한 100만 건의 대화(소비자 사용을 주로 반영하므로 "소비자 데이터"라고도 칭함)와 자사(1P) API 트래픽에서 100만 건의 기록(기업 사용을 주로 반영하므로 "기업 데이터"라고도 칭함)을 분석한다. 두 표본 모두 2025년 11월 13일부터 11월 20일까지의 기간에 해당한다. 데이터는 당사의 개인정보 보호 및 보존 정책에 따라 관리하며, 분석은 당사의 약관, 정책, 계약 합의와 일관된다. 1P API 데이터의 경우 각 기록은 표본 기간의 프롬프트-응답 쌍이며, 일부는 다중 턴 상호작용의 중간 지점일 수 있다.
2 자동화와 증강 어느 범주에도 분류되지 않은 Claude.ai 대화의 비율은 3.9%에서 3.0%로 감소했다.
3 예를 들어 Kalanyi et al (2025) 참고: "둘째, 기술이 성숙하고 관련 일자리가 증가함에 따라 채용은 지리적으로 확산된다. 이 과정은 매우 느려서 완전히 분산되기까지 약 50년이 걸린다."
4 1P API 트래픽의 상향식 분석에서 Claude가 활용되는 사례로 "개인화된 B2B 콜드 세일즈 이메일 생성"(0.47%), "이메일 분석 및 비즈니스 서신 답장 초안 작성"(0.28%), "송장 처리 시스템 구축 및 유지보수"(0.24%), "이메일을 사전 정의된 라벨로 분류 및 범주화"(0.23%), "캘린더 일정 관리, 미팅 조율, 예약 관리"(0.16%)가 관찰되었다.
5 큰 틀에서 Claude 사용 방식을 자동화와 증강으로 구분한다. 자동화는 과업 완수 중심의 상호작용 패턴을 포괄한다: 지시형(Directive)—사용자가 Claude에게 과업을 주면 최소한의 주고받기로 완료; 피드백 루프(Feedback Loops)—사용자가 과업을 자동화하고 필요에 따라 Claude에게 피드백을 제공. 증강은 협력적 상호작용 패턴에 초점을 맞춘다: 학습(Learning)—사용자가 다양한 주제에 대해 정보나 설명을 요청; 과업 반복(Task Iteration)—사용자가 Claude와 반복적으로 과업을 수행; 검증(Validation)—사용자가 자신의 작업에 대한 피드백을 요청.
6 이 상호작용 모드는 상호 배타적이지 않다. 일부 경우 Claude는 표본 대화가 5가지 상호작용 모드 중 어느 것에도 해당하지 않는다고 판단한다.
7 이번 보고서에서는 분류에 Sonnet 4.5를 사용했으며, 이전 경제 지표 보고서에서는 Sonnet 4를 사용했다. 이전 분석에서 다른 모델이 다른 분류 결과를 생성할 수 있음을 확인했으나, 그 차이는 대체로 미미했다.
8 회귀분석에 상수항을 포함했는데, 귀무가설하에서 0이어야 하기 때문이다. 모든 사양에서 상수항 추정치는 0에 가깝고 통계적으로 0과 구별되지 않는다.
Anthropic 경제 지표의 강점은 AI가 얼마나 사용되는지뿐 아니라, 어떻게 사용되는지를 보여주는 데 있다. 이전 보고서에서 Claude가 어떤 과업에 사용되고, 사람들이 Claude와 어떻게 협업하는지를 보여주었으며, 이 데이터를 통해 외부 연구자들이 노동시장 변화를 분석할 수 있었다(예: Brynjolfsson, Chandar & Chen, 2025).
이번 Anthropic 경제 지표에서는 다섯 가지 경제 '프리미티브'에 대한 통찰을 제공하여 외부 연구자에게 제공하는 데이터의 범위를 대폭 확장한다. 프리미티브란 Claude가 사용되는 방식에 대한 단순하고 기초적인 척도로, 표본의 익명화된 대화 기록에 대해 Claude에게 구체적인 질문을 던져 생성한다. 일부 프리미티브는 여러 질문을 포괄하고, 다른 것들은 단일 지표를 사용한다.
AI 역량이 매우 빠르게 발전하고 경제적 효과가 불균등하게 나타나는 만큼, Claude가 어떻게 사용되는지뿐 아니라 이 기술이 어떤 영향을 미칠지를 파악하기 위해 다양한 신호가 필요하다.
이번 보고서는 기존에 측정하던 협업 패턴(사용자가 Claude로 과업을 자동화하는지 증강하는지) 외에 다섯 가지 새로운 경제 프리미티브를 도입한다. 이 프리미티브는 인간-AI 대화의 다섯 가지 차원을 포착한다: 1) 과업 복잡성, 2) 인간 및 AI 숙련도, 3) 업무·학업·개인용 사용 구분, 4) AI의 자율성 수준, 5) 과업 성공 여부(표 2.1 참조). AI 자율성은 기존의 자동화/증강 구분과 다른 것을 포착한다. 예를 들어 "이 문단을 프랑스어로 번역해 주세요"는 높은 자동화(지시형, 최소한의 주고받기)이지만 낮은 AI 자율성(Claude에게 의사결정이 거의 필요 없음)이다.
과업 복잡성은 과업의 복잡도가 다양할 수 있음을 포착하며, 여기에는 완료 소요 시간과 난이도가 포함된다. O*NET에서 '디버깅' 과업은 함수의 작은 오류를 수정하는 것일 수도, 코드베이스를 포괄적으로 리팩토링하는 것일 수도 있는데, 이 둘의 노동 수요에 대한 함의는 매우 다르다. 복잡성은 AI 없이 사람이 과업을 완료하는 데 걸리는 추정 시간, AI와 함께 과업을 완료하는 데 걸리는 시간, 그리고 사용자가 하나의 대화에서 여러 과업을 처리하는지 여부로 측정한다.
인간 및 AI 숙련도는 자동화가 숙련도 수준과 어떻게 상호작용하는지를 다룬다. AI가 낮은 전문성이 필요한 과업을 불균형적으로 대체하면서 고숙련 업무를 보완한다면, 이는 숙련 편향적 기술 변화(skill-biased technical change)의 또 다른 형태가 될 수 있다—고숙련 근로자에 대한 수요는 증가하고 저숙련 근로자는 대체된다. Claude 없이도 과업을 완료할 수 있었는지, 그리고 사용자 프롬프트와 Claude 응답을 이해하는 데 필요한 교육 연수를 측정한다.
사용 목적은 직업적·교육적·개인적 사용을 구분한다. 노동시장 효과는 업무 활용에서 가장 직접적으로 발생하며, 교육적 사용은 미래 노동력이 AI 보완적 숙련을 쌓고 있는 곳을 보여주는 신호일 수 있다.
AI 자율성은 사용자가 의사결정을 Claude에게 위임하는 정도를 측정한다. 최근 보고서에서 사용자가 과업을 전적으로 위임하는 '지시형' 사용의 증가를 기록한 바 있다. 적극적 협업에서 완전 위임까지의 자율성 수준을 추적하면 자동화의 속도를 예측하는 데 도움이 된다.
과업 성공은 Claude가 과업을 성공적으로 완료했는지에 대한 Claude의 자체 평가를 측정한다. 과업 성공은 자동화의 실현 가능성(과업을 자동화할 수 있는가?)과 효율성(자동화에 몇 번의 시도가 필요한가?) 모두를 평가하는 데 중요하다. 즉, 과업 성공은 노동 과업 자동화의 타당성과 비용 모두에 영향을 미친다.
데이터에 담긴 AI 사용의 새로운 차원은 최근 수행한 Claude의 생산성 효과 연구, 외부 연구자들의 피드백, 인적 자본과 전문성 관점에서 AI의 경제적 영향을 다룬 최신 문헌(Vendraminell et al., 2025), 그리고 경제 연구팀 내부의 숙고를 바탕으로 설정했다. 주요 선정 기준은 예상되는 경제적 관련성, 차원 간 보완성, 그리고 Claude가 해당 차원에서 방향적으로 정확하게 대화를 분류할 수 있는지 여부였다.
단순한 프리미티브 여러 개를 조합하면—개별적으로는 다소 잡음이 있고 완벽하게 정확하지 않더라도—AI 사용 방식에 대한 중요한 신호를 제공할 수 있다는 것이 우리의 핵심 가설이다. 따라서 주로 방향적 정확성을 검증했다.
AI 유무에 따른 과업 소요 시간 분류에는 이전 생산성 연구의 최소 수정 버전을 사용했다. 개인정보 보호 도구를 통해 구현된 신규 분류기1의 검증 과정은 다음과 같다. 과업 복잡성 같은 개념을 포착하기 위해 여러 잠재적 척도를 설계했다. Claude.ai의 경우 사용자가 Claude.ai에 피드백을 제공하여 기저 대화 기록을 볼 수 있는 권한이 있는 소규모 대화 세트에서 분류기 성능을 인간 연구자와 비교했다. 1P API 데이터의 경우 내부 데이터와 합성 데이터를 혼합하여 분류기를 검증했다. 두 데이터 소스 모두 Claude.ai나 1P API 트래픽을 완전히 대표하지는 않지만, 개인정보를 보호하면서도 실제 사용 데이터와 유사한 데이터에서 분류기가 제대로 작동하는지 확인할 수 있다.
초기 성능 결과를 바탕으로 조정이 필요한 분류기는 수정하고, 성능이 부족한 분류기는 폐기했다. 흥미롭게도 일부 경우(예: 과업 성공 측정)에서는 정교하고 복잡한 분류기보다 단순한 분류기가 인간 평가와 비교했을 때 더 나은 성능을 보였다. 이후 사고 과정(chain of thought) 프롬프팅 적용 여부에 따른 분류기 버전의 성능을 비교했으며, 성능이 크게 향상되는 3가지 항목(사람의 소요 시간 추정, AI와 함께한 소요 시간 추정, AI 자율성)에서만 사고 과정 프롬프팅을 유지하기로 했다. 최종적으로 5가지 프리미티브를 위한 9개의 새로운 분류기를 선정했으며, 인간 평가와 다소 차이가 있을 수 있으나 모두 방향적으로 정확하다.
우리의 목표는 구현이 간단하면서도 조합했을 때 잠재적으로 중요한 경제적 신호를 제공하는 분류기를 만드는 것이었다. 새로운 척도의 방향적 정확성에는 높은 확신을 가지고 있지만(예: 인간 프롬프트를 이해하는 데 필요한 평균 교육 연수가 높은 과업은 실제로 더 복잡할 가능성이 높음), 어떤 척도도 정확하거나 확정적인 것으로 받아들여서는 안 된다(예: Claude.ai가 많은 과업에서 필요한 인간 교육 연수를 다소 과소평가할 수 있음).
그럼에도 프리미티브는 사람들이 AI를 어떻게 사용하는지에 대한 이해를 풍부하게 한다. 프리미티브, 지역, 과업 간에 체계적인 관계가 드러나며—이 패턴들은 3장과 4장에서 심층적으로 다룬다. 이러한 관계가 직관적이고 일관된다는 점은 프리미티브가 사람과 기업이 Claude를 사용하는 방식의 핵심적인 측면을 포착하고 있음을 시사한다.
외부 벤치마크도 이를 뒷받침한다. 생산성 연구에서 Claude의 시간 추정치는 소프트웨어 엔지니어링 과업의 실제 소요 시간과 상관관계를 보였다. 그림 2.1은 우리의 인간 교육 척도가 직업별 실제 근로자 교육 수준과 상관관계를 보임을 나타낸다. 이러한 검증은 개별 프리미티브가 방향적으로 정확하며—이를 조합하면 과업 성공률을 반영한 생산성 추정치 개선이나 직업 노출도의 새로운 측정법 구축 등 추가적인 분석적 가치를 제공할 수 있음을 시사한다.
궁극적으로 가장 강력한 검증은 프리미티브가 노동시장 결과의 의미 있는 변동을 포착하는 데서 나올 것이다. 공개하는 데이터를 통해 외부 연구자들이 경제적 변화를 새로운 방식으로 분석할 수 있다. 초기 연구 결과는 고무적이다—이전 보고서의 자동화/증강 구분은 이미 외부 연구자들이 노동시장 변화 분석에 활용하고 있다(Brynjolfsson, Chandar & Chen, 2025).
프리미티브가 서로 다른 AI 활용 유형을 어떻게 구별하는지 보여주기 위해, 대조적인 두 가지 요청 클러스터를 살펴본다: 소프트웨어 개발("여러 프로그래밍 영역에 걸친 소프트웨어 디버깅, 개발, 최적화 지원")과 개인 생활 관리("개인 생활 관리 및 일상적 과업 지원"). 그림 2.2는 각 클러스터의 프리미티브 프로필을 전체 평균과 함께 보여준다.
과업 복잡성. Claude 추정에 따르면 소프트웨어 개발 요청은 능숙한 전문가가 AI 없이 완료하는 데 약 3.3시간이 소요되며, 이는 전체 평균인 3.1시간에 가깝다. 개인 생활 관리 과업은 평균 1.8시간으로 더 단순한 것으로 추정된다. AI와 함께하는 인간의 추정 작업 시간은 두 유형 모두 약 15분으로 유사하여, 이 프리미티브는 이 두 과업에서 다른 프리미티브보다 변동이 적음을 보여준다.
인간 및 AI 숙련도. 소프트웨어 개발 요청은 더 전문적인 지식을 활용한다: 인간 프롬프트와 AI 응답 모두 이해에 약 13.8년의 교육이 필요한 것으로 추정되며, 개인 생활 관리 요청은 9.1~9.4년이다. Claude 추정에 따르면 개인 생활 관리 요청의 96%는 사용자가 혼자서도 완료할 수 있지만, 소프트웨어 개발 요청은 82%에 그쳐—Claude가 기술적 업무에서 더 본질적인 지원을 제공함을 나타낸다.
사용 목적. Claude는 소프트웨어 개발 요청의 64%를 업무용으로 분류하는 반면, 개인 생활 관리는 17%에 불과하다. 이는 Claude가 매우 다양한 목적으로 활용될 수 있음을 보여준다. 전체적으로 Claude.ai 사용은 업무 46%, 학업 19%, 개인 35%이다.
AI 자율성. 두 클러스터 모두 추정 자율성 수준이 유사하며(1~5 척도에서 약 3.5), 전체 평균에 가깝다. 이는 소프트웨어 개발과 개인 생활 관리 과업 모두 평균적으로 Claude에게 과업 수행 방식에 대해 비슷한 수준의 자율성을 부여함을 의미한다.
과업 성공. Claude는 개인 과업의 78%를 성공적으로 완료한 것으로 평가하며, 소프트웨어 개발은 61%이다. 더 전문적인 지식이 필요하고 사용자가 혼자 쉽게 완료할 수 없는 어려운 과업일수록 추정 성공률이 낮다.
이전 보고서와 마찬가지로, Claude.ai 대화와 1P API 데이터 간에 과업과 프리미티브에서 큰 차이가 관찰된다. 이는 부분적으로 상호작용의 특성을 반영한다: Claude.ai 기록에는 다중 턴 대화가 포함될 수 있는 반면, 분석 대상 API 데이터는 단일 입출력 쌍으로 제한된다. API 요청이 이전 교환과 연결하는 메타데이터 없이 독립적으로 도착하기 때문에, 전체 대화 흐름이 아닌 개별 사용자-어시스턴트 쌍으로만 분석할 수 있다.
전반적으로 API 사용은 압도적으로 업무 관련(74% vs. 46%)이며 지시형(64% vs. 32%)이고, 상호작용의 4분의 3이 자동화로 분류되어 Claude.ai의 절반 미만과 대비된다(그림 1.3 참조).
반면 Claude.ai 사용자는 더 많은 주고받기를 하며, 과업 반복과 학습 모드가 훨씬 보편적이고, AI와 함께하는 시간(15분 vs. 5분)과 사람이 혼자 완료하는 데 필요한 추정 시간(3.1시간 vs. 1.7시간) 모두에서 과업이 더 오래 걸리는 경향이 있다. Claude.ai는 과업 성공률도 더 높은데(67% vs. 49%), 이는 사용자가 명확히 하고, 방향을 수정하며, 해결책을 향해 반복할 수 있는 다중 턴 대화의 이점을 반영하는 것으로 보인다. Claude.ai 사용자는 평균적으로 AI에 더 많은 자율성을 부여하며, 혼자서는 완료할 수 없는 과업을 가져올 가능성이 더 높다.
이러한 차이는 직업별 과업 분포에서도 나타난다. API 사용은 컴퓨터·수리 과업에 크게 집중되어 있어(52% vs. 36%) 코드 생성, 데이터 처리 등 프로그래밍적이고 자동화에 적합한 워크플로에 활용됨과 일치한다. 사무·행정 과업 역시 API에서 더 비중이 높아(15% vs. 8%) 위임에 적합한 정형적 업무 운영을 반영한다. 반면 Claude.ai에서는 교육 과업(16% vs. 4%)—학업 도움, 튜터링, 교육 자료 개발—이 훨씬 많고, 예술·디자인·엔터테인먼트 과업(11% vs. 6%)도 더 많다. 또한 Claude.ai는 커뮤니티·사회서비스, 의료 전문가 등 사용자가 상담, 조언, 개인적 정보를 구하는 대인 서비스 카테고리의 긴 꼬리 분포를 보인다.
이러한 패턴은 1P API 배포가 체계적 자동화에 적합한 과업에 집중하는 반면, Claude.ai는 학습, 창작, 개인 지원 등 더 넓은 범위의 사용 사례를 소화하고 있음을 시사한다.
4장에서 과업 수준의 변동을 더 심층적으로 다룬다.
1 분류기(classifier)란 주어진 입력(예: 사용자 대화)에 특정 출력(예: "업무" 사용 목적)을 부여하는 모델이다. 이 보고서에서는 Claude를 분류기로 사용하여, Claude에게 특정 출력을 선택하도록 프롬프팅한 후 Claude의 응답을 출력으로 활용한다(프롬프트는 표 2.1 참조).
2 이 보고서 전반에서 이변량 관계를 나타내기 위해 구간 산점도(binned scatterplot)를 사용한다. x 변수를 기준으로 관찰치를 20개의 동일 크기 구간으로 나눈 후, 각 구간의 x 및 y 평균값을 플로팅한다. 예를 들어 가장 왼쪽 점은 x 분포 하위 5%에 속하는 관찰치의 평균을 나타낸다.
이 장에서는 100만 건의 Claude.ai 대화²에 대한 개인정보 보호 기반¹ 분석을 통해 지역별 Claude 사용 패턴의 차이를 분석한다. 다섯 가지 핵심 관찰 결과는 다음과 같다:
100만 건의 Claude.ai 대화2에 대한 개인정보 보호 기반1 분석을 통해, 지역별로 뚜렷하게 다른 Claude 도입 양상을 확인할 수 있다. 전 세계적으로나 미국 전역에서나 Claude는 주로 업무에 사용된다. 다만 사용 목적에는 지역별 차이가 존재한다. 전 세계 수준에서 발칸 지역과 브라질이 업무용 사용 비율이 가장 높으며(그림 3.1 참조), 인도네시아는 학업용 비율이 가장 높은 것이 특징적이다. 미국 주 단위에서는 뉴욕이 상대적으로 업무용 Claude 사용이 가장 많은 주로 눈에 띈다.

사용 목적의 차이는 해당 국가의 1인당 소득과 관련이 있으며, 이는 다시 1인당 AI 도입과 연관된다. Claude의 업무용과 개인용 사용은 고소득 국가에서 더 보편적인 반면, 학업용 사용은 저소득 국가에서 더 보편적이다(그림 3.2 참조). 흥미롭게도 이러한 결과는 학교용 AI 사용이 낮은 1인당 소득과, 여가용 AI 사용이 높은 1인당 소득과 연관된다는 Microsoft의 최근 연구와 수렴한다.
이러한 패턴에 기여하는 요인은 여러 가지가 있을 수 있다:
이번 보고서에서 도입한 경제 프리미티브를 통해 차별적 도입을 유발하는 요인을 분석할 수 있다. Anthropic AI 사용 지수(AUI)와 핵심 경제 프리미티브 및 GDP 간의 관계를 분석하면, 국가와 미국 주 모두에서 성립하는 패턴이 관찰된다. 예를 들어 이전 보고서의 발견인 GDP와 AUI 간의 강한 상관관계가 재확인된다(그림 3.3 및 3.4 참조). 국가 수준에서 1인당 GDP가 1% 증가하면 1인당 Claude 사용량이 0.7% 증가한다. 인간 교육(대화에서 인간이 작성한 프롬프트를 이해하는 데 필요한 교육 연수)은 국가와 미국 주 두 수준 모두에서 Anthropic AI 사용 지수와 양(+)의 유의한 상관관계를 보인다.
그러나 AUI와 프리미티브 간의 관계는 국가 수준과 미국 주 수준에서 상이한 경우가 많다. 예를 들어 국가 수준에서 AUI는 AI 없이 사람이 과업을 완료하는 데 걸리는 시간, 그리고 AI에 부여되는 의사결정 자율성과 음의 상관관계를 보인다. 미국 주 수준에서는 이 관계가 통계적으로 유의하지 않은데—미국 주의 표본 크기가 더 작은 것도 원인일 수 있다. 또한 미국 주 수준에서는 AUI와 업무용 Claude.ai 사용 간에 양의 상관관계가 관찰되지만, 국가 수준에서는 그렇지 않다.
중요한 점은, 프리미티브 자체가 반드시 인과적 요인은 아니라는 것이다—소득이나 교육이 실제로 도입을 추동하는 것인지, 아니면 다른 기저 조건의 대리변수인지 알 수 없다. 이러한 요인의 상당수는 서로 높은 상관관계를 보인다. 예를 들어 미국 주 수준에서 인간 교육 연수는 단독으로는 Anthropic AI 사용 지수와 강한 연관성을 보이지만, GDP와 기타 프리미티브를 통제하면 이 관계가 사라진다—교육이 경제 발전 수준과 기타 요인으로 더 잘 설명되는 변동을 포착하고 있었을 수 있음을 시사한다.
경제적·제도적 맥락—예를 들어 특정 지역 내 교육 수준의 분포—은 AI 사용 방식과 관련이 있다. 흥미롭게도, 과업 성공은 국가 수준에서 인간 교육과 음의 상관관계를 보이지만 미국 주 수준에서는 양의 상관관계를 보인다. 다만 미국 주 수준의 양의 관계는 다른 프리미티브를 통제하면 유의하지 않게 된다(그림 3.5 참조). 이는 한 관찰 수준(국가)에서의 관계 패턴이 다른 수준(미국 주)과 모순됨을 의미한다. 국가 간 비교에서는 교육 수준이 높은 인구가 더 어려운 과업에 도전하여 성공률이 낮아질 수 있다. 동질적인 맥락 내에서는 교육이 과업 성공을 개선하지 못할 수 있다.
인간 교육과 AI 교육, 즉 인간 프롬프트 또는 AI 응답을 이해하는 데 필요한 교육 연수 간에 매우 높은 상관관계가 확인된다(국가: r = 0.925, p < 0.001, N = 117; 미국 주: r = 0.928, p < 0.001, N = 50). 이는 숙련도의 중요성을 부각하며, 인간이 AI에 프롬프트하는 방식이 AI의 효과를 결정한다는 것을 시사한다. 동시에 모델 설계와 학습의 중요성도 강조한다. Claude는 매우 정교한 방식으로 응답할 수 있지만, 사용자가 정교한 프롬프트를 입력할 때만 그렇게 하는 경향이 있다.
모델이 학습·미세조정·지시되는 방식은 사용자에 대한 응답 방식에 영향을 미친다. 예를 들어, 한 AI 모델은 "항상 중학생이 이해할 수 있는 쉬운 언어를 사용하라"는 시스템 프롬프트를 가질 수 있고, 다른 모델은 박사급 교육이 필요한 복잡한 언어로만 응답할 수 있다. Claude에서는 사용자의 프롬프트 방식에 따라 응답이 달라지는 더 역동적인 패턴이 관찰된다.
1인당 사용량이 높은 국가—대체로 1인당 소득이 높은 국가—일수록 자동화 비율과 Claude에 위임되는 의사결정 자율성이 낮다. 즉, 고소득 국가일수록 AI를 독립적으로 작동하게 두기보다 어시스턴트이자 협력자로 활용한다. 이 관계는 미국 주 수준에서는 유의하지 않은데, 미국 내에서는 소득 변동과 사용 목적의 다양성이 전 세계 대비 제한적이기 때문일 수 있다. 이는 Anthropic AI 사용 지수가 높은 국가일수록 Claude를 독립적으로 운영(자동화)하기보다 협력적으로 활용(증강)하는 경향이 있다는 제3차 경제 지표 보고서의 발견과 일치한다.
데이터에서 나타나는 뚜렷한 지역별 차이는 Claude가 세계 각지에서 서로 다른 방식으로 사용되고 있음을 보여준다. GDP는 국가 수준과 미국 주 수준 모두에서 Anthropic AI 사용 지수를 예측하며, 인간 교육—사용자 프롬프트의 정교함—도 두 수준 모두에서 도입과 상관관계를 보인다.
그 밖의 관계는 맥락에 따라 달라진다. 국가 수준에서는 높은 사용량이 짧은 과업, 낮은 AI 자율성과 상관관계를 보이지만, 미국 내에서는 이 패턴이 성립하지 않는다. 과업 성공과 인간 교육은 전 세계와 미국 내에서 정반대의 관계를 보인다.
인간 교육과 AI 교육 연수 간의 거의 완벽한 상관관계는 사용자가 Claude에 프롬프트하는 방식이 Claude의 응답 방식을 형성함을 잘 보여준다. 사용량이 높은 국가일수록 Claude를 더 협력적으로 활용한다는 발견과 결합하면, AI를 잘 활용하는 데 필요한 숙련 자체가 불균등하게 분포되어 있을 수 있음을 시사한다.
Claude와의 대화 특성을 측정함으로써, 인적 자본과 같은 광범위한 경제적 요인과의 중요한 관계를 발견할 수 있다. 이러한 관계는 노동시장 결과를 예측하고, 서로 다른 숙련이 요구되는 AI 기반 경제로의 원활한 전환을 위한 정보를 제공하는 데 도움이 될 수 있다.
1 개인정보 보호를 위해 자동 분석 시스템은 15건 미만의 대화와 5명 미만의 고유 사용자 계정을 가진 셀(예: 국가, (국가, 과업) 교차점)을 필터링한다. 상향식 요청 클러스터의 경우 최소 500건의 대화와 250명의 고유 계정이라는 더 높은 개인정보 보호 필터를 적용한다.
2 이 장의 데이터는 2025년 11월 13일부터 20일까지 Claude.ai Free, Pro, Max 대화 100만 건을 해당 기간의 전체 대화에서 무작위 추출한 것이다. 이후 잠재적 신뢰 및 안전 위반으로 플래그된 콘텐츠를 제외했다. 관찰 단위는 Claude.ai에서의 대화이지 사용자가 아니므로, 같은 사용자의 여러 대화가 포함될 수 있지만, 이전 연구에 따르면 대화를 무작위로 표본 추출하는 것과 사용자별 층화 추출하는 것은 실질적으로 다른 결과를 내지 않는다. 국가 및 미국 주 수준의 집계 지리 통계는 각 대화의 IP 주소에서 평가·집계했다. 지리적 위치 확인에는 IP 지리위치 제공자가 이 표준을 사용하므로 ISO-3166 코드를 사용한다. 국제 위치는 ISO-3166-1 국가 코드, 미국 주 수준 데이터는 모든 50개 주와 워싱턴 D.C.를 포함하는 ISO-3166-2 지역 코드를 사용한다. IP 지리위치 제공자가 판별한 VPN, 애니캐스트, 호스팅 서비스에서 발생한 대화는 제외한다.
3 세계 지도는 분쟁 지역에 대한 ISO 표준 관점을 적용한 Natural Earth의 세계 지도에 기반하며, 일부 분쟁 지역이 포함되지 않을 수 있다. 회색으로 표시된 국가("Claude 사용 불가") 외에도, 우크라이나의 크림반도, 도네츠크, 헤르손, 루한스크, 자포리자 지역에서는 서비스를 운영하지 않는다. 국제 제재 준수와 우크라이나의 영토 보전 지지에 따라, 러시아 점령 지역에서는 서비스를 제공하지 않는다.
4 "데이터 없음"은 부분적으로 데이터가 누락된 국가에 적용된다. 일부 영토(예: 서사하라, 프랑스령 기아나)는 고유한 ISO-3611 코드를 보유한다. 이 중 일부는 사용이 존재하고 다른 것들은 없다. Anthropic AI 사용 지수는 세계은행의 생산가능인구 데이터에 기반한 1인당 수치로 산출하며, 이 영토들에 대한 인구 데이터가 쉽게 확보되지 않으므로 해당 영토의 AUI를 산출할 수 없다.
5 표본 추출 기간 동안 관찰된 사용의 상당 부분이 악성 트래픽이었으므로, 모든 지리적 분석에서 세이셸을 제외한다.
6 표본 추출 기간 동안 관찰된 사용의 상당 부분이 악성 트래픽이었으므로, 모든 미국 주 분석에서 와이오밍을 제외한다.
이 장에서는 과업 유형에 따라 시간 절감, 성공률, 자율성이 어떻게 달라지는지, 그리고 이것이 직업과 생산성에 미치는 잠재적 영향은 무엇인지를 살펴본다.
분석 결과, 복잡한 과업일수록 시간 절감 효과가 크지만 신뢰도와의 상충 관계가 존재한다. Autor and Thompson (2025)에서 영감을 받은 단순 과업 제거 실험에서, Claude가 주로 고학력 과업을 커버하기 때문에 대부분의 직업에서 순(net) 탈숙련화 효과가 나타난다—AI가 처리하는 과업이 해당 직업의 더 숙련된 구성요소인 경우가 많기 때문이다.
Claude 사용은 점점 더 많은 직업에 걸쳐 상당한 비율의 과업을 포괄한다. 성공률을 반영한 보다 풍부한 직업 커버리지 모형을 적용하면, 일부 직업은 커버리지 자체는 낮지만 AI가 가장 시간 집약적인 업무에서 성공하기 때문에 큰 영향을 받는다. 과업 신뢰도를 반영하여 생산성 추정치를 조정하면, 향후 10년간 연간 노동 생산성 증가에 대한 내재적 효과는 1.8%p에서 약 1.0%p로 대략 절반으로 감소한다. 다만 이 추정치는 현재 모델 역량을 반영한 것이며, 점점 더 긴 과업에서의 신뢰도가 향상될 것이라는 징후는 분명하다.
분석에 따르면 일반적으로 데이터에서 복잡한 과업일수록 AI로 인한 시간 절감(또는 '속도 향상')이 크다. 이는 Claude에게 사람이 혼자 작업하는 소요 시간과 인간-AI 협업 시의 소요 시간을 각각 추정하게 하여 도출하며, 이전 연구에서 검증된 바 있다. 속도 향상 배수(speedup)는 사람 단독 소요 시간을 AI 협업 시 소요 시간으로 나눈 값이다. 따라서 1시간짜리 과업을 10분으로 줄이면 6배의 속도 향상이 된다.
아래 그림 4.1의 왼쪽 패널은 과업 복잡성의 핵심 척도인 인간 교육 연수에 대한 평균 속도 향상 배수를 O*NET 과업 수준에서 보여준다1. Claude.ai 대화에서 12년의 교육(고졸)이 필요한 프롬프트는 9배의 속도 향상을, 16년의 교육(대졸)이 필요한 프롬프트는 12배의 속도 향상을 달성한다. 이는 더 높은 인적 자본을 요구하는 사용 사례에서 생산성 향상이 더 두드러짐을 의미하며, 화이트칼라 근로자가 AI를 도입할 가능성이 훨씬 높다는 연구 결과(예: Bick et al 2025)와도 일치한다.
과업 복잡성 전 범위에 걸쳐 API 사용자의 속도 향상 배수가 더 높다. 이는 API 데이터가 단일 턴 상호작용에 한정되어 있고, API 과업이 자동화에 특화되어 선별된 것이기 때문일 수 있다.
그러나 분석 결과에는 상충 관계도 포착된다. 오른쪽 패널에서 볼 수 있듯이, 복잡한 과업일수록 성공률이 낮다. Claude.ai에서 고졸 미만의 교육이 필요한 과업(예: 제품에 대한 기본 질문 응답)은 70%의 성공률을 달성하지만, 분석 계획 수립 같은 대졸 수준 대화에서는 66%로 하락한다. 그럼에도 성공률 차이를 감안하여—저성공 과업을 제외하거나 속도 향상을 성공 확률로 할인하더라도—교육 기울기는 사라지지 않는다: 복잡한 과업이 여전히 더 큰 순 생산성 향상을 보인다.
교육 기울기의 함의를 살펴보는 한 가지 방법은 입력 이해에 필요한 교육 수준별 자동화 비율을 확인하는 것이다. 고학력 과업에서 자동화 비율이 상대적으로 높다면, 화이트칼라 근로자의 노출이 더 크다는 신호일 수 있다. 그러나 여기서는 메시지가 불분명하다: 자동화 비율은 프롬프트 작성에 필요한 인간 교육 수준과 사실상 무관하다(부록 그림 A.1)2. Claude.ai와 1P API 모두에서 교육 수준별 과업의 자동화 패턴은 거의 동일한 비율로 나타난다.
사용자가 Claude에게 더 많이 위임하는 맥락은 어디인가? Claude.ai 사용자는 더 복잡한 과업에서 AI에 약간 더 많은 자율성을 부여한다. 반면 API 사용에서는 모든 복잡성 수준에서 일관되게 낮은 자율성을 보인다.
다만 이 분포가 동일한 과업 집합을 포괄하지는 않는다. 1장의 집중도 그래프에서 볼 수 있듯이 API 사용은 경제 전반에서 더 좁은 범위의 과업을 커버한다. API 데이터에서 고학력 과업 중 사용이 집중되는 것에는 보안 분석, 테스트 및 품질 보증, 코드 리뷰가 포함되며, Claude.ai 사용자는 반복적이고 교육적인 세션을 더 많이 수행하는 경향이 있다.
AI '과업 수행 범위(task horizon)'에 관한 최근 연구(Kwa et al., 2025)에 따르면, AI의 성공률은 과업 소요 시간이 길어질수록 하락한다: 긴 과업일수록 모델이 완료하기 어렵다. 하지만 모델 세대가 거듭될수록 이 하락이 완만해지며, 점점 더 긴 과업에서 성공을 거두고 있다. METR은 과업 수행 범위를 주로 모델이 최소 50% 성공률을 달성하는 최대 소요 시간으로 운용하며, 이 지표의 성장은 AI 진보의 핵심 지표가 되었다.
그림 4.3은 우리의 프리미티브를 활용한 유사한 척도를 보여준다. 이 그래프는 O*NET 과업 수준에서 과업별 성공률을 사람의 소요 시간에 대해 플로팅한다. API 데이터에서 성공률은 1시간 미만 과업의 약 60%에서 5시간 이상 과업의 약 45%로 하락한다. 적합선이 50% 성공률 수평선과 만나는 지점은 3.5시간으로, API 호출이 3.5시간짜리 과업에서 50% 성공률을 달성함을 시사한다. METR의 소프트웨어 엔지니어링 벤치마크에서 유사한 시간 추정치는 Sonnet 4.5의 경우 2시간, Opus 4.5의 경우 약 5시간이다. (이 보고서의 데이터는 Opus 4.5 출시 이전의 것이다.)
Claude.ai 데이터는 다른 양상을 보인다. 과업 소요 시간이 길어져도 성공률 하락이 훨씬 완만하다. 선형 적합을 외삽하면 Claude.ai에서 50% 성공률에 도달하는 시점은 약 19시간이다. 이는 다중 턴 대화가 복잡한 과업을 효과적으로 작은 단계로 분해하며, 각 턴이 사용자가 방향을 수정할 수 있는 피드백 루프를 제공하기 때문일 수 있다.
METR 환경과의 근본적인 차이는 선택 효과(selection)이다. METR은 고정된 과업 세트를 모델에 할당하는 벤치마크를 구축한다. 우리의 데이터에서는 사용자가 Claude에게 어떤 과업을 가져올지 스스로 선택한다. 따라서 관찰된 성공률은 모델 역량뿐 아니라 무엇이 성공할지에 대한 사용자의 판단, Claude에 문제를 설정하는 비용, 과업이 성공할 경우의 예상 시간 절감도 반영한다.
사용자가 실패가 예상되는 과업을 회피한다면, 관찰된 성공률은 잠재적 과업 전체 분포에 대한 실제 역량을 과대평가하게 된다. 이러한 선택 효과는 두 플랫폼 모두에서 작용하되 방식은 다르다: API 고객은 자동화에 적합한 과업을, Claude.ai 사용자는 반복을 통해 개선할 수 있는 과업을 선택한다. 또한 이 선택 효과로 인해, 더 성능이 좋은 모델이 이 그래프에서 반드시 개선을 보인다는 보장은 없다—사용자가 새 모델에 대응하여 유사한 O*NET 과업이라도 더 도전적인 형태로 제시할 수 있기 때문이다.
METR과 같은 통제된 벤치마크는 자율 역량의 프론티어를 측정한다. 우리의 실제 사용 데이터는 모델 역량과 사용자 행동이 혼합된 실효적 과업 수행 범위를 측정하며, 코딩 과업을 넘어서는 범위로 확장된다. 두 접근법 모두 AI가 수 시간의 인간 작업이 필요한 과업에서 효과적일 수 있다는 점을 확인한다.
이전 연구에서 36%의 직업이 과업의 최소 4분의 1에서 AI 사용이 관찰되었으며, 약 4%가 75% 과업 커버리지에 도달한 것으로 나타났다. 그러나 이 척도는 데이터에서 특정 과업이 나타나는지 여부에만 기반했다. 이번 보고서에서 도입한 프리미티브를 활용하면 AI가 직업의 업무 내용을 어떻게 변화시키고 있는지를 보다 정확하게 파악할 수 있다.3
먼저, 과업 커버리지가 증가하고 있다. 보고서들을 통합하면 49%의 직업이 과업의 최소 4분의 1에서 AI 사용을 경험했다. 하지만 해당 과업이 직업에서 차지하는 비중과 Claude의 평균 성공률을 반영하면, 영향을 받는 직업의 구성이 달라진다.
실효적 AI 커버리지를 근로자 하루 업무 중 Claude가 성공적으로 수행할 수 있는 비율로 정의한다. 이는 과업 성공률의 가중 합으로 산출하며, 각 과업의 가중치는 근로자 시간 배분 중 해당 과업의 비중에 과업 빈도를 곱한 값이다. 성공률은 프리미티브에서, 시간 추정치는 생산성 효과에 관한 이전 연구에서, 빈도 추정치는 설문 응답 근로자가 해당 과업을 얼마나 자주 수행하는지를 표시한 O*NET 데이터에서 가져온다.
아래 그래프는 실효적 AI 커버리지(y축)가 과업 커버리지(x축)만으로 본 것과 어떻게 다른지를 보여준다. 둘은 높은 상관관계를 보이지만 핵심적인 차이가 있다. 그래프 오른쪽에서, 거의 모든 과업이 Claude 데이터에 일정 빈도로 나타나는 높은 커버리지 직업은 대체로 45도 선 아래에 위치한다. 이는 90%의 과업 커버리지라도 반드시 큰 직업 영향을 의미하지 않음을 시사한다—Claude가 핵심 커버 과업에서 실패하거나 가장 시간 집약적인 과업을 놓칠 수 있기 때문이다.
세부적으로 살펴보면, 실효적 AI 커버리지가 과업 커버리지와 크게 차이나는 직업이 여럿 있다. 예를 들어 데이터 입력 직원은 실효적 AI 커버리지가 가장 높은 직업 중 하나다. 9개 과업 중 2개만 커버되지만, 가장 큰 비중의 과업인 '원본 문서에서 데이터를 읽고 입력하기'에서 Claude의 성공률이 높기 때문이다. AI가 이들이 가장 많은 시간을 보내는 업무에서 뛰어난 것이다.
의료 속기사와 영상의학과 전문의도 커버되는 과업이 가장 시간 집약적이고 빈도가 높은 핵심 업무이기 때문에 상위로 이동한다. 영상의학과 전문의의 경우 상위 2개 과업—진단 영상 해석과 판독 보고서 작성—의 성공률이 높다. 이 직업들은 직업 프로필에서 실무적·행정적 업무를 AI가 수행할 수 없어 과업 커버리지는 낮지만, 근무 시간의 대부분을 차지하는 핵심 지식 업무에서는 성공적이다.
미생물학자는 45도 선 아래에 위치하여, 과업 커버리지만으로 예측되는 것보다 실효적 AI 커버리지가 낮다. Claude가 과업의 절반을 커버하지만, 가장 시간 집약적인 과업인 전문 실험 장비를 사용한 실습 연구는 커버하지 못한다.
이 척도는 직업 수준의 AI 침투에 대해 더 현실적인 그림을 제공한다고 볼 수 있다. 다만 그 함의는 이러한 Claude 대화가 실제로 사람이 하던 업무를 얼마나 대체하거나 보강하는지에 달려 있다. 데이터 입력 직원의 경우 AI가 기존에 수작업으로 수행하던 과업을 대체하는 것이 분명하다. 하지만 Claude 대화가 교사의 강의 수행에 매핑될 때, 이것이 실제 업무에서 강의 시간 감소로 이어지는지는 불분명하다. 향후 연구에서는 1P API 데이터를 활용하여 이러한 과업 중 어떤 것이 실제 프로덕션 워크플로에 통합되고 있는지를 파악할 수 있을 것이다.
근로자 하루 업무 중 AI가 성공적으로 수행할 수 있는 비율을 넘어, 어떤 과업이 커버되고 그것이 해당 직업의 고숙련 요소인지 저숙련 요소인지는 별도의 중요한 질문이다. 최근 연구는 직업 내 과업 구성의 변화를 분석하여 AI가 임금과 고용에 미치는 영향을 이해하려 하고 있다(Autor and Thompson 2025; Hampole et al 2025). 핵심 통찰은 자동화의 효과가 얼마나 많은 과업이 커버되는지뿐 아니라, 어떤 과업이 커버되는지에 달려 있다는 것이다.
AI가 수행할 수 있는 과업을 제거했을 때 직업이 어떻게 변하는지를 파악하기 위해, 먼저 각 과업에 필요한 숙련도를 측정하는 척도를 구축했다. O*NET은 과업 수준의 교육 요건을 제공하지 않으므로, 과업 임베딩에서 교육 연수를 예측하는 모형을 학습시키되 BLS의 직업 수준 교육을 타깃으로 활용했다4. 이렇게 하면 저학력 직업에도 고숙련 과업이 있을 수 있다—해당 과업이 고학력 직업에 주로 존재하는 과업과 유사하다면. 예를 들어 법무비서(Legal Secretaries)는 12년 교육 직업이지만, "법률 출판물을 검토하고 데이터베이스 검색을 수행하여 계류 중인 사건과 관련된 법률 및 법원 판결을 식별"하는 과업은 변호사나 법률보조원이 수행하는 과업과 유사하기 때문에 17.7년으로 예측된다.
데이터에 따르면 Claude는 더 높은 교육 수준을 요구하는 과업을 커버하는 경향이 있다. 경제 전반 과업의 평균 예측 교육 연수는 13.2년이다. 우리 데이터에서 관찰되는 과업의 평균 예측은 약 1년 높은 14.4년(전문대졸에 해당)이다. 이는 이전 보고서에서 화이트칼라 직업에서 Claude 사용이 더 많다는 직업 수준 결과와 일치한다.
이어서 AI가 커버하는 과업을 제거했을 때 남은 업무의 평균 교육 수준이 어떻게 변하는지를 산출했다. 전반적으로, AI가 상대적으로 높은 교육 수준을 요구하는 과업을 제거하기 때문에 순 1차 효과는 직업의 탈숙련화이다. 탈숙련화를 경험하는 한 직업은 테크니컬 라이터로, "특정 분야의 발전을 분석하여 개정 필요성을 판단"(18.7년)이나 "출판된 자료를 검토하고 범위·형식 변경을 권고"(16.4년) 같은 과업이 사라지고, "지정된 자료를 설명하기 위한 스케치 그리기"(13.6년)나 "생산·개발·실험 활동 관찰"(13.5년) 같은 과업이 남는다. 여행사 직원도 탈숙련화를 경험하는데, AI가 "여행 일정 패키지 기획·설명·준비·판매"(13.5년)와 "여행 및 숙박 비용 산정"(13.4년)을 커버하고, "교통편 티켓 인쇄 또는 요청"(12.0년)과 "교통 및 숙박 결제 수금"(11.5년) 같은 과업이 남기 때문이다. 여러 교직에서도 AI가 채점, 학생 상담, 연구비 신청서 작성, 연구 수행 등을 처리하면서도 대면 강의와 교실 관리는 할 수 없기 때문에 탈숙련화가 나타난다.
반면 평균 교육 수준이 상승하는 직업도 있다. 부동산 관리자는 AI가 판매 기록 유지(12.8년), 시장 시세 대비 임대료 검토(12.6년) 같은 정형적 행정 과업을 커버하고, 대출 확보, 건축사무소와의 협상, 이사회 미팅 등 높은 수준의 전문적 판단과 대면 상호작용이 필요한 과업이 남아 숙련 상향을 경험한다.
이러한 패턴은 AI에 대응하여 과업 구성이 조정되면서 향후 몇 년간 직업이 어떻게 진화할 수 있는지를 보여준다. 교육 수준을 Autor and Thompson의 분석에서의 전문성(expertise)처럼 해석할 수 있다면, 그들의 프레임워크에 따르면 테크니컬 라이터와 여행사 직원은 임금이 하락하고 고용이 증가할 것으로 예측된다; 반대로 부동산 관리자는 복잡한 협상과 이해관계자 관리에 특화되면서 고용은 줄고 임금은 상승할 것이다.5
다만 우리의 교육 기반 척도는 Autor and Thompson의 전문성 개념과 다르다: 그들의 프레임워크에서 고전문성으로 분류되는 과업 중 우리 기준으로는 저학력인 것이 있다—예를 들어 전기 기사의 "차단기, 변압기 또는 기타 부품에 전선 연결" 과업이 그러하다. 그리고 이 예측은 현재의 Claude 사용 패턴에 기반하며, 모델이 새로운 역량을 학습하고 사용자가 새로운 활용법을 발견하면서 패턴은 변할 것이다—커버되는 과업과 순 효과가 탈숙련화인지 숙련 상향인지도 달라질 수 있다.
이전 연구에서 우리는 AI의 광범위한 도입이 미국 노동 생산성 증가율을 향후 10년간 연간 1.8%p 높일 수 있다고 추정했다. 여기서는 이번 보고서에서 도입한 과업 성공 프리미티브와 과업 보완성에 대한 보다 풍부한 처리를 반영하여 해당 분석을 재검토한다.
100만 건의 Claude.ai 대화 표본에서 200건 이상의 관찰치를 가진 과업의 속도 향상 배수에 기반하여6, 현재 세대 AI 모델과 현재 사용 패턴이 향후 10년간 연간 1.8%p의 생산성 효과를 시사한다는 이전 발견을 재현한다.7
1P API 데이터를 포함하면 기업의 Claude 배포 패턴에 따른 내재적 노동 생산성 효과의 차이를 평가할 수 있다. 두 가지 상반된 힘이 작용한다: API 사용은 더 좁은 과업과 직업(특히 코딩 관련)에 집중되어 있어 내재적 효과를 줄이는 방향으로 작용하지만, API 과업의 평균 속도 향상 배수가 더 높아(그림 4.1이 시사하듯) 이를 상쇄한다. 이 두 힘은 대체로 상쇄되어: API 표본도 향후 10년간 1.8%p의 노동 생산성 증가를 시사한다.
이 분석에 대한 핵심 비판은 모델의 신뢰도를 반영하지 못한다는 점이다. 근로자가 AI 출력을 검증해야 한다면, 생산성 이점은 원시 속도 향상이 시사하는 것보다 작아진다. 이 채널의 정량적 중요성을 평가하기 위해 이번 보고서에서 도입한 과업 성공 프리미티브를 반영하여, 과업별 시간 절감에 과업별 성공률을 곱한 후 집계했다.8
이 조정은 의미 있는 효과를 갖는다: 내재적 생산성 증가율은 Claude.ai 사용 기반으로 연간 1.8%p에서 1.2%p로, API 트래픽 기반으로는 1.0%p로 하락한다. 그러나 신뢰도를 반영한 후에도 내재적 영향은 경제적으로 유의미하다—향후 10년간 연간 1.0%p의 지속적 증가는 미국 생산성 증가율을 1990년대 후반과 2000년대 초반 수준으로 회복시킬 것이다. 두 번째 비판은 과업 보완성에 관한 것이다. 일부 과업이 필수적이고 쉽게 대체할 수 없다면, 다른 과업에서의 속도 향상과 관계없이 전체 생산성 효과는 제약받는다. 교사가 AI로 수업 계획을 더 효율적으로 준비하더라도, 학생과 교실에서 보내는 시간에는 영향이 없을 수 있다.
이 아이디어를 운용하기 위해, 직업 내 과업별 시간 절감을 집계하는 방식에 일정한 구조를 부여하되, 직업별 효율 향상을 합산하는 방식은 기본 분석과 동일하게 유지했다. 구체적으로, 각 직업 내에서 과업이 고정 대체 탄력성(CES) 집계기에 따라 결합된다고 가정하며, 각 과업은 Claude 사용이 시사하는 생산성 효과에 관한 이전 분석에서 산출한 추정 소요 시간으로 가중한다.9
핵심 파라미터는 과업 간 대체 탄력성 σ이다. 대체 탄력성이 1보다 작으면 과업들은 보완재로서, AI로 속도가 향상되지 않는 과업이 전체 생산성 향상의 병목이 된다. 반대로 대체 탄력성이 1보다 크면 근로자가 더 생산적인 과업에 집중할 수 있어 직업 수준의 전체 시간 절감이 증폭된다. 대체 탄력성이 1인 경우는 위의 기본 분석을 그대로 재현하는 특수한 경우이다.
그림 4.6은 과업 대체 가능성의 다양한 값에 대한 이 분석 결과를 보여준다. 예상대로 대체 탄력성이 1일 때 내재적 생산성 효과는 기본 분석과 동일하다: Claude.ai와 API 표본 모두에서 향후 10년간 노동 생산성 증가율 약 1.8%p 상승.
그러나 과업이 보완재일 때, AI가 가장 적게 속도를 향상시키는 과업이 병목이 되면서 내재적 총량 노동 생산성 영향은 급격히 감소한다. 예를 들어 σ=0.5일 때 내재적 전체 노동 생산성 효과는 연간 0.7~0.9%p로, 기본 추정치의 약 절반 수준이다. 여기에 과업 성공률까지 추가 조정하면 내재적 생산성 효과는 Claude.ai에서 0.8%p, API에서 0.6%p로 더 감소한다.
반면 대체 탄력성이 1보다 큰 경우, Opus 4.5 이전 사용 패턴에 기반한 내재적 노동 생산성은 상당히 높아진다. 예를 들어 σ=1.5일 때 내재적 노동 생산성 효과는 연간 2.2~2.6%p로 상승하며, 이는 AI가 가장 큰 속도 향상을 제공하는 과업으로의 전문화와 일치한다.
두 경우 모두에서 API 트래픽에 기반한 내재적 생산성 영향이 과업 대체 가능성 수준에 더 민감하게 반응한다. 이는 Claude.ai와 비교해 API 트래픽이 더 적은 과업과 관련 직업에 집중되어 있다는 사실과 일치한다: 과업이 보완재일 때 이 집중이 병목 문제를 증폭시키고, 대체재일 때는 과업 전문화를 통한 생산성 향상을 증폭시킨다.
이 분석이 보여주는 것은, 자동화의 생산성 효과가 궁극적으로 당분간 AI 자동화를 피하는 병목 과업에 의해 제약받을 수 있다는 점이다. 점점 더 역량이 강해지는 AI의 노동시장 함의도 유사한 힘에 영향을 받을 수 있다. 예를 들어 Gans and Goldfarb (2026)는 직업 내 병목 과업의 존재가 부분적 AI 자동화로 인해 노동 소득이 오히려 증가할 수 있음을 주장한다—이러한 과업의 경제적 가치가 높아지기 때문이다(적어도 직업이 완전히 자동화될 때까지는).
이 장의 핵심은 AI가 경제에 미치는 영향이 균일하지 않을 것이라는 점이다. 실효적 AI 커버리지 프레임워크가 보여주듯, 각 근로자에 대한 노동시장 함의는 프론티어 AI 도구가 해당 근로자의 가장 핵심적인 과업에서 얼마나 신뢰할 수 있는지에 달려 있다.
하지만 노동시장 효과는 AI가 능숙하게 처리할 수 있는 과업의 숙련 요건이 경제 전반과 비교해 어떠한지에도 달려 있을 수 있다. 실제로 Claude가 이미 처리할 수 있는 과업을 경제에서 제거하면 순 탈숙련화 효과가 나타난다: 인간에게 남는 과업은 AI가 처리하는 과업보다 낮은 교육 요건을 갖는다.
이는 시사하는 바가 크지만, 중요한 세부 사항을 놓칠 수 있다: Claude가 사용되는 가장 복잡한 과업은 동시에 가장 어려움을 겪는 과업이기도 하다. 고숙련 전문가를 대체하기보다는, AI의 작업물을 이해하고 품질을 평가하는 보완적 전문성의 가치를 오히려 강화하는 방향으로 작용할 수 있다.
이러한 변혁적 노동시장 효과의 이면에는 성장과 생산성에 대한 광범위한 영향이 있다. 한편으로 과업 신뢰도를 분석에 반영하면 현재 Claude 사용 패턴이 시사하는 노동 생산성 성장 효과는 줄어든다. 병목 과업이 제약으로 작용하면 내재적 영향은 더 줄어든다. 다른 한편으로 모델 역량의 지속적 성장은 과업 커버리지와 과업 성공률 모두를 높일 수 있으며, 이는 다시 생산성 영향을 증가시킬 수 있다.
1 O*NET과 프리미티브 간의 상관관계를 분석할 때는 측정 오차를 줄이기 위해 최소 100건 이상의 대화에 나타나는 과업으로 제한한다. 커버리지 분석에서는 개인정보 보호 기준인 최소 15건 이상의 모든 과업을 사용한다.
2 온라인 부록은 https://huggingface.co/datasets/Anthropic/EconomicIndex에서 확인할 수 있다.
3 관련 AI 적용 가능성 점수는 Tomlinson et al (2025) 참조.
4 사전 학습된 문장 트랜스포머(all-mpnet-base-v2)를 사용하여 각 과업 설명의 임베딩을 생성하고, Ridge 회귀로 교육 연수를 예측했다.
5 한편 일부 역사적 증거에 따르면, 직업 과업을 자동화하는 기술이 특허 데이터에 나타나면 노출된 직업의 고용과 임금이 이후 하락한다(Webb 2020).
6 Claude 사용의 총량적 생산성 함의를 처음 평가할 때 2025년 가을 Claude.ai 대화 10만 건 표본에 의존했다. 속도 향상이 관찰된 과업 세트에 기반하여, 향후 10년간 노동 생산성이 연간 1.8%p 높아질 수 있다고 추정했다. 표본을 100만 건으로 확대하면 매우 드물게 발생하는 과업—이전 보고서에서 기록했듯이 사용이 멱법칙(power law)을 따르므로 매우 흔한—을 어떻게 처리할지 판단해야 한다. Claude.ai 대화 표본에서 이전 결과를 재현하는 0.02% 임계값을 선택했다. 개인정보 보호를 위해 최소 15건 이상의 관찰치를 가진 과업만 분석하며, 이는 10만 건 표본에서 0.015%의 내재적 임계값에 해당한다. 따라서 결과는 표본 간에 내적 일관성을 유지한다. 100만 건 표본에 제한을 두지 않고 100만 건 중 15건에 불과한 과업까지 포함하여 효율 향상을 가정하면, 향후 10년간 내재적 총량 노동 생산성 증가는 연간 약 5%p가 된다—포함 과업 수가 훨씬 많아진 데 따른 기계적 증가이다.
7 이전과 마찬가지로, 이 결과는 과업 수준의 생산성 충격에 Hulten의 정리를 적용하고, 이에 상응하는 총요소생산성의 일회성 증가가 자본 심화 효과와 함께 10년에 걸쳐 실현된다고 가정한 것이다.
8 참고로, 내재적 노동 생산성 집계를 위해 과업별 효율 향상을 AI 없는 인간 소요 시간과 AI 있는 소요 시간의 로그 차이로 산출한다. 과업 신뢰도에 기반한 조정 방법은 물론 다른 것도 가능하다. 표본의 과업이 AI 적용 가능성이 다른 하위 과업으로 구성되어 있고, 근로자가 효과적인 하위 과업에만 최적으로 AI를 배치한다면, 효율 향상에 성공률을 곱하는 것은 과업 내 AI 도입의 외연적 마진(extensive margin)을 포착한다.
9 과업 수준의 시간 절감을 경제 전체 생산성 영향으로 집계하기 위해 CES(고정 대체 탄력성) 생산함수를 사용한다. 탄력성 파라미터 σ는 근로자가 과업 간에 얼마나 쉽게 전환할 수 있는지를 결정한다. σ=1일 때 Hulten의 정리를 직접 적용한다: 총량 생산성 향상은 과업 간 로그 속도 향상의 임금 비중 가중 합이다. σ≠1일 때는 2단계 집계를 사용한다: 먼저 각 직업 내에서 과업 속도 향상을 시간 비중으로 가중한 CES 집계로 직업 수준의 속도 향상을 산출하며, ρ=(σ-1)/σ를 사용한다. 이후 이 직업 수준 속도 향상에 Hulten의 정리를 적용한다. σ<1(보완재)이면 가장 작은 속도 향상을 보이는 과업이 생산성 향상의 병목이 된다. σ>1(대체재)이면 근로자가 AI가 가장 큰 속도 향상을 제공하는 과업에 전문화할 수 있어 총량 효과가 증폭된다. AI 속도 향상 데이터가 관찰되지 않은 과업에는 생산성 변화가 없다고 가정한다. 이 분석을 제안해 준 Pascual Restrepo에게 감사드린다.
이번 제4차 Anthropic 경제 지표 보고서는 AI 사용의 기초적 특성인 경제 프리미티브를 도입하여, 소비자와 기업이 Claude를 어떻게 사용하는지를 보여준다. Claude를 활용하여 이 차원들에 따른 사용 변동 정도를 추정했으며, 이 척도들은 방향적으로 정확하고 개별 분류가 완벽하지 않더라도 종합적으로 중요한 신호를 제공한다.
분석 결과는 AI가 경제와 노동시장을 어떻게 재편할 것인지에 대해 중요한 시사점을 담고 있다. 특히 Claude는 더 높은 교육 수준을 요구하는 과업에서 더 많이 사용되고 더 큰 생산성 향상을 제공하는 경향이 있다. 이러한 과업이 미국 근로자의 업무에서 줄어든다면, 순 효과는 직업의 탈숙련화일 수 있다. 하지만 이 영향은 과업 간 보완성과 특정 과업의 생산성 증가가 해당 과업에 대한 수요를 오히려 늘리는지 여부에 결정적으로 달려 있다.
전 세계적 수준에서 1인당 소득과 사용 패턴 간의 강한 관계—고소득 국가에서는 Claude를 협력적으로 활용하고 저소득 국가에서는 학업과 특정 애플리케이션에 집중하는—는 AI의 영향이 균일하게 전개되기보다 기존 제도적 구조에 의해 매개될 것임을 시사한다. 지리적 확산 패턴도 이 그림을 뒷받침한다. 미국 내에서는 1인당 사용량이 소폭 수렴했지만, 전 세계적으로는 확산이 더 느리다. 소득에 따른 AI 사용 방식의 차이와 결합하면, AI가 국제 경제 격차를 좁힐 것인지 넓힐 것인지에 대한 의문이 제기된다.
여기서 기록된 패턴 못지않게 중요한 것은 이번 및 이후 보고서에 걸친 잠재적 변화이다. AI 역량이 발전하면서 Claude의 성공률이 높아지고, 사용 패턴이 더 높은 자율성을 보이며, 사용자가 새롭고 더 복잡한 과업에 도전하고, 자동화 가능한 것으로 입증된 과업이 대화형 채팅에서 API 배포로 이행할 수 있다. 이러한 역학을 지속적으로 추적하여, 경제에서 AI의 역할에 대한 종단적 시각을 제공할 것이다.
이전 공개를 바탕으로, 이번 판은 새로운 차원에 따른 과업 수준 분류와 전 세계 지역별 세분화를 처음으로 포함하여, 공유하는 사용 데이터의 범위와 투명성을 대폭 확장했다. 연구자, 언론인, 대중이 정책 대응의 실증적 토대가 될 수 있는 AI의 경제적 영향에 대한 새로운 질문을 탐구할 수 있도록 이 데이터를 공개한다.
사용자가 AI를 실험하려는 의지, 그리고 정책입안자가 안전과 혁신을 동시에 추진하는 규제 환경을 조성하는지가 AI가 경제를 어떻게 변화시킬지를 형성할 것이다. AI가 전 세계 사용자에게 혜택을 주려면 접근성 확대만으로는 부족하다—특히 저소득 경제에서 효과적인 사용을 가능케 하는 인적 자본을 개발하는 것이 필수적이다.
Ruth Appel, Maxim Massenkoff, Peter McCrory
*보고서 주저자
Miles McCain, Ryan Heller, Tyler Neylon, Alex Tamkin
Xabi Azagirre, Tim Belonax, Keir Bradwell, Andy Braden, Dexter Callender III, Sylvie Carr, Miriam Chaum, Ronan Davy, Evan Frondorf, Deep Ganguli, Kunal Handa, Andrew Ho, Rebecca Jacobs, Owen Kaye-Kauderer, Bianca Lindner, Kelly Loftus, James Ma, Jennifer Martinez, Jared Mueller, Kelsey Nanan, Kim O'Rourke, Dianne Penn, Sarah Pollack, Ankur Rathi, Zoe Richards, Alexandra Sanderford, David Saunders, Michael Sellitto, Thariq Shihipar, Michael Stern, Kim Withee, Mengyi Xu, Tony Zeng, Xiuruo Zhang, Shuyi Zheng, Emily Pastewka, Angeli Jain, Sarah Heck, Jared Kaplan, Jack Clark, Dario Amodei
@online{anthropic2026aeiv4,
author = {Ruth Appel and Maxim Massenkoff and Peter McCrory and Miles McCain and Ryan Heller and Tyler Neylon and Alex Tamkin},
title = {Anthropic Economic Index report: economic primitives},
date = {2026-01-15},
year = {2026},
url = {https://www.anthropic.com/research/anthropic-economic-index-january-2026-report},
}