Anthropic의 생산성 향상에 관한 경제 연구
실제 Claude 대화 데이터로부터 AI가 노동 생산성에 미치는 영향을 파악할 수 있을까요? Anthropic은 개인정보 보호 기반 분석 방법을 활용해 Claude.ai의 실제 대화 10만 건을 표본 추출하고, 각 작업을 AI 도움 없이 수행할 때와 AI를 활용할 때 소요되는 시간을 추정한 뒤, 이를 경제 전반의 생산성에 미치는 영향으로 확장했습니다. Claude의 추정에 따르면, 이러한 작업은 AI 없이 완료하는 데 평균 약 90분이 걸리며, Claude를 활용하면 개별 작업 속도가 약 80% 빨라집니다.
이 추정치를 경제 전체로 확장하면, 현세대 AI 모델만으로도 향후 10년간 미국 노동 생산성 성장률을 연 1.8% 높일 수 있다는 결론이 나옵니다—이는 최근 수년간의 성장률을 대략 두 배로 끌어올리는 수준입니다. 다만 이 수치는 미래에 대한 예측이 아닙니다. AI 도입 속도나, 훨씬 더 뛰어난 AI 시스템이 가져올 생산성 효과는 반영하지 않았기 때문입니다.
이번 분석에는 한계가 있습니다. 가장 중요한 점은, 사용자가 Claude와의 대화 밖에서 작업에 투입하는 추가 시간—예컨대 Claude의 결과물에 대한 품질이나 정확성 검증—을 반영하지 못한다는 것입니다. 그러나 AI 모델의 시간 추정 능력이 향상됨에 따라, 이 연구 노트에서 제시한 방법론이 AI가 실제 업무를 어떻게 변화시키고 있는지 이해하는 데 점점 더 유용해질 것으로 기대합니다.
주요 결과를 좀 더 자세히 요약하면 다음과 같습니다:
이를 통해 AI의 경제적 영향이 시간에 따라 어떻게 전개되는지 이해하는 새로운 관점을 확보했으며, 이를 Economic Index의 일환으로 지속적으로 추적할 예정입니다: 실제 Claude 대화 데이터를 기반으로 이러한 추정치를 산출함으로써, AI 생산성을 이해하는 새로운 시각을 확보했습니다. 이는 특정 분야에 한정된 실험 연구나, 보다 거시적 수준의 정부 통계와 같은 기존 접근 방식을 보완하는 역할을 합니다. 역량과 도입률이 발전함에 따라 이 추정치가 어떻게 변화하는지 추적하면서, 이 문제에 대한 전체적인 그림을 지속적으로 업데이트해 나갈 것입니다.

Anthropic Economic Index를 통해 지금까지 다양한 작업, 산업, 지역에서 사람들이 Claude를 어떻게 활용하는지 기록해왔습니다. 여기서 파악한 것은 활용의 폭(breadth)—법률, 과학, 프로그래밍 등에서의 다양한 사용 사례—이었지, 활용의 깊이(depth)는 아니었습니다. 사람들이 Claude에 맡기는 작업의 규모는 어느 정도이며, Claude를 통해 실제로 얼마나 많은 시간을 절약하고 있을까요?
현재 버전의 Economic Index로는 이러한 작업 내부의 이질성(within-task heterogeneity)을 포착할 수 없습니다. 예를 들어, 5분이면 끝나는 보고서 작성과 5일이 걸리는 보고서 작성을 구분하지 못하고, 오후 한나절이면 되는 재무 모델링과 몇 주가 걸리는 재무 모델링도 구분하지 못합니다. 이 때문에 AI의 경제적 효과를 평가하기가 어렵습니다. 소프트웨어 개발자가 하루에 Claude를 활용해 풀 리퀘스트(pull request) 10개를 작성한다고 해도, 9개가 단순한 문서 수정이고 1개만 핵심 인프라 변경이라면, Claude로 수행한 작업 건수만 세는 것으로는 본질을 놓치게 됩니다.
뿐만 아니라, 모델 역량이 향상됨에 따라 더 높은 가치의 작업을 수행하는지도 파악해야 합니다. AI가 업무와 생산성을 어떻게 바꾸고 있는지 이해하려면, Claude가 어떤 작업을 처리하는지뿐만 아니라 그 작업과 시간 절감의 규모가 얼마나 되는지도 알아야 합니다.
최근 여러 연구 그룹이 무작위 대조 시험(RCT)을 통해 특정 분야에서의 생산성 향상을 측정하기 시작했습니다. 소프트웨어 엔지니어링 작업, 글쓰기, 고객 서비스 등이 그 대상입니다. METR의 AI의 장시간 작업 수행 능력 측정 연구는 AI 시스템이 여러 단계로 이루어진 장시간 과제를 독립적으로 수행할 수 있음을 보여주었습니다. 하지만 이러한 평가는 좁은 범위의 문제에 한정되어 있으며, 폭넓은 실제 활용 사례를 다루지는 못합니다. AI의 경제 전반에 대한 영향을 평가하려면, 수백에서 수천 건에 달하는 실제 AI 활용 사례를 분석할 수 있는 방법이 필요합니다.
이 보고서는 그 목표를 향한 첫 단계입니다. Claude를 활용해, Claude가 처리하는 작업을 사람이 직접 수행할 경우 소요되는 시간을 추정하고, Claude와 사람이 함께 수행한 시간과 비교하여, AI가 절약한 시간을 산출합니다. AI 모델은 사용자의 전문성, 업무 흐름, 제약 조건 등에 대한 맥락이 부족하지만, 소프트웨어 엔지니어링 작업 데이터셋을 대상으로 검증한 결과, 모델이 추정한 시간은 사람의 추정치 및 실제 추적된 소요 시간과 비교해 유의미한 수준의 정확도를 보였습니다.
이어지는 본문에서는 작업 수준의 시간 절감 추정 방법론을 제시하고, 실제 데이터를 통해 접근 방식을 검증한 뒤, 어떤 작업과 직업군에서 AI로 인한 생산성 향상이 가장 큰지 분석합니다. 이후에는 작업 수준의 추정치가 경제 전반의 AI 도입 과정에서 총생산성에 어떤 함의를 갖는지 살펴봅니다.
개인정보 보호 기반 분석 시스템을 활용해 Claude.ai(Free, Pro, Max 요금제)의 대화 기록 10만 건을 분석하고, Claude가 처리하는 작업의 소요 시간과 시간 절감 효과를 측정했습니다. 각 작업에 대해 두 가지 핵심 추정치를 산출했습니다:
Claude를 사용해 각 대화에 대한 추정치를 산출했습니다. Economic Index 방법론에 따라, 개별 대화 데이터를 O*NET 분류 체계의 작업 단위로 통합하고, 각 작업별 시간 추정치의 중앙값을 산출했습니다. 이를 통해 작업별, 직업군별로 시간 추정치가 어떻게 달라지는지 분석할 수 있었습니다. 분류에 사용된 프롬프트는 부록에 수록했습니다.
실제 대화 기록을 분석함으로써 작업 내부의 편차(intra-task variation)를 포착할 수 있습니다. 예를 들어, 제조 장비 설계 작업 전체의 비중이 변하지 않더라도, 대화 수준의 정보를 통해 사람들이 시간이 지남에 따라 더 복잡하고 장기적인 프로젝트에 도전하는지, 또는 더 큰 시간 절감 효과를 얻고 있는지 확인할 수 있습니다. Economic Index에서 이러한 추정치의 변화를 지속적으로 추적하고, 연구자들이 직접 예측과 결론을 도출할 수 있도록 집계 데이터셋을 공개할 예정입니다.
작업 소요 시간 추정은 사람에게도 매우 어려운 일입니다. AI 모델에게는 더욱 어렵습니다. 작업의 전체 맥락에 대한 핵심 정보가 부족하기 때문입니다(다만 메모리, 외부 연동 등의 기능이 강화되면서 이 부분은 점차 개선될 것으로 예상합니다). Claude의 추정치가 실질적으로 유용한지 평가하기 위해 두 가지 검증 분석을 수행했습니다.
자기 일관성 테스트: 먼저, 서로 다른 대화 표본이나 프롬프트 변형에서 Claude가 안정적인 작업 시간 추정치를 산출하는지 평가했습니다.
프롬프트 민감도를 평가하기 위해 여러 변형을 만들었습니다. 예를 들어 "적절한 역량을 갖춘 직원(employee with appropriate skills)"과 "숙련된 전문가(skilled professional)"로 각각 질문하는 식입니다. 사용자가 연구 목적으로 대화 공유에 동의한 1,800건의 대화를 각 변형별로 분석하고, 변형 간 상관관계를 산출했습니다. 그 결과 높은 자기 일관성을 확인했으며, 로그 스케일 상관계수는 변형 간 r=0.89~0.93이었습니다.

외부 벤치마킹: 자기 일관성이 높더라도 모델의 예측이 현실과 괴리가 크다면 의미가 없습니다. 이를 확인하기 위해, 오픈소스 저장소의 JIRA 티켓에서 수집한 수천 건의 실제 소프트웨어 개발 작업 데이터셋을 대상으로 Claude의 시간 추정 능력을 테스트했습니다. 이 데이터셋에는 개발자의 추정치와 실제 추적된 완료 시간이 모두 포함되어 있습니다.
이는 Claude에게 매우 도전적인 과제입니다. Claude는 JIRA 티켓의 제목과 설명만 볼 수 있는 반면, 개발자들은 코드베이스와 티켓의 전체 맥락을 파악하고 있으며, 유사한 작업이 얼마나 걸렸는지도 경험적으로 알고 있기 때문입니다. 이 벤치마크에서 1,000건의 작업 하위 집합에 대한 결과는 다음과 같습니다:
이 분석은 Claude의 추정치가 소프트웨어 개발자 본인의 추정치에 비해 약간 낮은 수준이지만 방향성 있는 정보를 제공한다는 점을 보여줍니다. 다만 Claude의 추정치는 사람에 비해 훨씬 더 압축된 분포를 보이는데, 짧은 작업의 시간은 상대적으로 길게, 긴 작업의 시간은 짧게 예측하는 경향이 있으며, 전반적으로 과대 추정하는 경향이 있습니다. 이는 작업 간 실제 소요 시간 차이가 보고서에서 제시하는 것보다 더 클 수 있으며, 실제 작업 시간이 약간 더 짧을 가능성을 시사합니다. 전체적으로, 이러한 결과는 모델의 예측이 적어도 이 영역에서는 실제 결과와 의미 있는 상관관계를 가지며, 작업 간 비교나 시계열 변화 추적에 유용하다는 점을 보여줍니다. 또한 Claude Sonnet 4에 비해 Claude Sonnet 4.5에서 더 높은 상관관계를 관찰했는데, 이는 모델 역량이 향상됨에 따라 추정 정확도도 계속 개선될 수 있음을 시사합니다.

먼저 위의 방법론을 사용해 작업 수준의 시간 절감 효과를 추정한 뒤, 이를 경제 전반의 효과로 집계합니다.

직업 내 개별 작업을 살펴보면 AI가 어디서, 어떻게 시간을 절약해 주는지 구체적으로 확인할 수 있습니다. 가장 극단적인 사례로, 교육과정 개발 작업에서 Claude는 4.5시간이 걸릴 것으로 추정한 작업을 사용자가 단 11분 만에 완료하는 경우가 관찰되었습니다. 교사의 평균 시간당 임금 기준으로 이 작업의 추정 인건비는 115달러입니다.
송장, 메모, 기타 문서 작성(적어도 Claude에 요청되는 유형의 문서 기준)에서는 소요 시간의 87%가 절감됩니다. 또한 재무 데이터 해석과 같은 금융 분석가 작업에서는 80%의 시간 절감 효과가 나타나며, 이 작업의 통상적인 인건비는 31달러 수준입니다.
사람 기준 소요 시간 추정치를 보면, Claude가 처리하는 작업의 소요 시간은 직업군에 따라 상당한 차이를 보입니다. 아래 차트에서는 Claude가 활용되는 작업 중 각 직업 카테고리별 평균을 보여줍니다1. Claude가 활용되는 경영 관련 작업(예: 투자 선정)의 평균 소요 시간은 2.0시간으로 가장 길며, 법률(1.8시간), 교육(1.7시간), 예술·미디어(1.6시간) 순입니다. 반면 식품 조리(예: 메뉴 기획이나 가격 책정), 설치·유지보수, 운송 관련 작업은 평균 0.3~0.5시간으로, 비교적 범위가 한정된 작업이거나 대기 시간이 적은 작업임을 시사합니다. Claude의 시간 추정치가 긴 작업은 과소 추정하고 짧은 작업은 과대 추정하는 경향이 있다는 점을 감안하면, 실제 차이는 이보다 더 클 수 있습니다.

비용 추정치는 AI 영향의 편차를 더욱 증폭시킵니다. 소요 시간이 가장 긴 작업이 인건비도 가장 높은 경향이 있기 때문입니다. 각 작업의 중앙값 소요 시간에 해당 직업의 OEWS 2024년 5월 평균 임금을 곱해 비용을 산출했습니다. 평균 경영 작업의 인건비는 133달러, 법률 작업은 119달러인 반면 식품 조리·서빙 관련 작업은 8달러에 불과합니다. 경영·재무 작업은 평균 69달러, 컴퓨터·수학 작업은 평균 82달러입니다.
관찰된 모든 작업을 종합하면, Claude가 각 대화에서 처리하는 업무는 전문가에게 맡길 경우 중앙값 기준 54달러의 인건비에 해당하는 것으로 추정됩니다. 물론 현재 모델의 실제 성능이 많은 작업에서 전문가보다 낮을 수 있지만, 최근 연구에 따르면 그 격차가 줄어들고 있습니다.
주요 직업군 전반에서, 표본 내 작업·직업의 평균 시간당 임금과 Claude에 요청되는 작업의 사람 기준 소요 시간 사이에 양의 상관관계가 관찰됩니다. 예를 들어, 경영과 법률 카테고리는 평균 시간당 임금에서 최상위에 위치하며, 이는 복잡한 지식 업무에서의 Claude 강점과 일치합니다.

사람 기준 소요 시간과 비용 추정치는 사람들이 AI로 처리하는 작업의 규모를 보여줍니다. 반면, 시간 절감율—AI를 활용하면 작업이 얼마나 빨라지는지에 대한 Claude의 추정—은 해당 작업에서 기대할 수 있는 생산성 향상을 나타냅니다.
대화 기준 중앙값 시간 절감율은 84%이지만, 작업과 카테고리에 따라 상당한 편차가 있습니다. 예를 들어, 진단 영상 확인 작업은 20%의 시간 절감에 그치는데, 이는 전문가가 이미 AI 없이도 빠르게 수행할 수 있는 작업이기 때문입니다. 반면, 보고서에서 정보를 수집·정리하는 작업은 약 95%의 시간 절감을 보이는데, AI가 사람보다 훨씬 빠르게 정보를 읽고, 추출하고, 인용할 수 있기 때문입니다. 전반적으로, 작업별 시간 절감 분포는 50~95% 범위에 집중되어 있으며, 80~90% 구간에서 정점을 이룹니다.
이러한 대폭의 시간 절감은 Claude가 사람보다 훨씬 빠르게 읽고 쓸 수 있다는 점과 부합합니다. 다만 이 접근 방식은 사람이 Claude의 결과물을 완성 상태로 다듬는 데 추가로 투입하는 시간이나, 여러 세션에 걸쳐 계속 작업을 반복하는 경우를 반영하지 못하며, 이를 고려하면 실제 시간 절감 효과는 더 작아질 수 있습니다. 기존 무작위 대조 시험에서는 일반적으로 더 낮은 시간 절감 효과가 보고되었으며, 적용 분야에 따라 56%, 40%, 26%, 14%, 심지어 마이너스 시간 절감도 관찰되었습니다. 이는 위와 같은 추가 작업의 영향이거나, 이전 세대 모델을 대상으로 한 연구이기 때문일 수 있습니다.

위의 추정치는 작업 수준에서 AI가 가져다주는 생산성 향상을 포착한 것입니다. 거시적 수준의 영향을 이해하기 위해, 이 절에서는 Claude의 추정치가 그대로 실현된다고 가정하고, 이러한 효과가 경제 전체에 걸쳐 어떻게 집계되는지 모델링합니다.
경제 전반의 생산성 효과를 추정하기 위해 헐텐 정리(Hulten's theorem)를 사용합니다. 이는 작업 수준의 효율성 향상을 미국 경제 전체로 집계할 수 있게 하는 표준 방법론입니다2. Acemoglu (2024)의 "기본" 접근 방식과 마찬가지로, 노동 생산성의 내재적 상승을 작업 수준 생산성 향상의 가중 평균으로 모델링합니다. 이 모델링 방식은 AI 도입에 따른 총요소생산성(TFP) 증가로 인해 자본 투자가 함께 늘어날 것을 암묵적으로 가정합니다. 이 프레임워크에서 내재적 TFP 증가분은 노동 생산성 향상에 노동소득 분배율을 곱한 값입니다3.
작업 구성: 각 직업에 대해 O*NET에서 업무 작업 목록을 가져옵니다. 이후 Claude를 활용해 근로자가 각 작업에 시간을 얼마나 투입하는지 비율을 추정합니다. 예를 들어, Claude는 프로그래머가 코드 작성 및 유지보수에 23%, 프로그램 분석 및 리팩터링에 15%, 나머지를 테스트·문서화·회의 등에 할애한다고 추정합니다.
작업 수준의 생산성 개선: 앞 절에서 AI 도움을 받을 때 각 작업이 얼마나 더 빠르게 완료되는지 추정한 값을 활용합니다. AI 없이 걸리는 시간과 AI 활용 시 걸리는 시간의 로그 차이를 생산성 개선 값으로 산출하며, 표본에서 관찰되지 않은 작업에는 보수적으로 개선 효과 없음(null)을 부여합니다.
경제 전반 추정: 각 작업의 내재적 생산성 향상을 두 가지 가중치로 경제적 중요도에 맞춰 조정합니다. (i) Claude가 추정한 해당 직업의 작업별 시간 투입 비율(위와 동일), (ii) 해당 직업이 미국 전체 임금 총액에서 차지하는 비중(해당 직업 카테고리의 고용 인원에 평균 임금을 곱한 값을 전체 직업의 임금 총액으로 나눈 값)입니다. 임금 총액은 2024년 5월 OEWS 데이터를 사용합니다. 이 접근 방식은 Claude가 산출한 시간 추정치가 각 작업의 모든 인스턴스에 대한 신뢰할 수 있는 평균값이며, Claude 또는 유사한 AI 시스템이 미국 경제 전체에 도입될 것이라고 암묵적으로 가정합니다.

AI가 향후 10년에 걸쳐 미국 경제 전반에 보편적으로 도입된다고 가정하고, 현재 모델을 기준으로 산출하면, Claude의 추정치는 미국 노동 생산성의 연간 1.8% 상승을 시사합니다. 이는 현재의 장기 성장률을 거의 두 배로 끌어올리는 수준입니다(1947년 이후 연평균 2.1%, 2019년 이후 연평균 1.8%). 노동소득 분배율을 0.6으로 가정하면4, 이는 총요소생산성(TFP) 연간 1.1% 상승에 해당합니다. 2000년대 초반 이후 TFP 성장률이 1% 미만이었음을 감안하면, 현재 AI 시스템의 광범위한 배포만으로도 성장률이 두 배로 뛰어, 1990년대 후반이나 1960~70년대 수준에 도달할 수 있음을 시사합니다5.
작업 수준의 효율성 향상에서 도출된 이 총노동 생산성 상승 추정치는 AI의 잠재적 생산성 영향에 대한 최근 연구들의 추정 범위 내에 있으나, 상위 쪽에 위치합니다(Filippucci, Gal, and Schief, 2024).
중요한 점은, 이 분석이 향후 10년간 AI 역량(및 인간의 AI 활용 효과)이 표본 추출 시점과 동일하다고 가정한다는 것입니다. 하지만 현실적으로 이 가정이 유지될 가능성은 낮습니다. AI는 앞으로도 빠르게 발전을 지속할 것으로 예상됩니다.
따라서 이 추정치는 현재의 사용 패턴에 기반한 시나리오 분석으로 이해해야 하며, 실제로 가장 가능성 높은 생산성 변화에 대한 예측이 아닙니다. 다른 연구에서 논의한 바와 같이, 저희는 AI가 심각한 노동 시장 혼란을 야기할 가능성에 대해 매우 주의를 기울이고 있으며, 이러한 혼란에는 AI에 의한 더 큰 생산성 증가가 수반될 가능성이 높습니다. 모델이 발전함에 따라 이 추정치는 AI 생산성 효과의 대략적인 하한선이 될 수 있지만, 도입 속도의 불균일성을 반영하지 않았기 때문에 단기적으로는 실제 생산성 향상이 이보다 낮을 수도 있습니다.

일부 작업과 직업이 데이터에서 훨씬 더 빈번하게 나타나는 점을 반영하듯, 직업별 노동 생산성 기여도에서도 유사한 현상이 관찰됩니다. 소프트웨어 개발자가 AI로 인한 총노동 생산성 향상에 가장 크게 기여하며(19%), 이어서 일반·운영 관리자(약 6%), 시장 조사 분석가·마케팅 전문가(5%), 고객 서비스 담당자(4%), 중등학교 교사(3%) 순입니다.
반면, 음식점업, 의료 서비스, 건설업, 소매업은 전체 생산성 효과에 대한 기여도가 훨씬 낮습니다. 이는 주로 이들 직업의 작업이 데이터에 거의 나타나지 않기 때문이며, 표본에서 해당 직업과 연관된 작업이 적기 때문입니다.
근로자가 AI를 통해 일부 업무를 가속화할 수 있다면, AI의 도움이 적은 작업이 상대적으로 더 큰 비중을 차지하게 되어, 해당 직업에서 더 중요한 부분이 될 수 있습니다. 예를 들어, AI가 주택 검사관의 보고서 작성을 도와준다 해도, 검사관이 현장까지 이동하여 직접 점검하는 시간이 동일하다면, 현장 검사가 전체 업무에서 차지하는 비중이 더 커지게 됩니다.
아래 그림은 몇 가지 직업에 대해 이를 시각적으로 보여줍니다. 소프트웨어 개발자의 경우, AI는 소프트웨어 개발, 테스트, 문서화, 데이터 조작 과정을 가속화합니다. 하지만 시스템 설치 조율이나 다른 기술자·엔지니어의 업무 감독에서는 의미 있는 AI 활용이 아직 관찰되지 않습니다. 교사의 경우, AI가 수업·활동 계획 수립을 지원하지만, 비교과 동아리 운영이나 교실 내 규율 관리에는 활용되지 않습니다.
성장의 관점에서, 이러한 관찰은 Aghion, Jones, and Jones의 최근 논점과 잘 부합합니다: "성장은 우리가 잘하는 것이 아니라, 필수적이면서도 개선하기 어려운 것에 의해 제약받을 수 있다."

이 접근 방식에는 향후 추가 연구가 필요한 몇 가지 한계가 있습니다:
여기서 개발한 측정 인프라를 통해 AI의 시간 절감 효과를 대규모로 지속적으로 추적할 수 있습니다. 모델이 향상되고 더 나은 방법론이 이러한 한계를 해결함에 따라, 시간 절감 효과를 재추정하고 역량 향상이 광범위한 경제적 영향으로 어떻게 이어지는지 파악할 수 있을 것입니다. 앞으로 수개월, 수년에 걸쳐 이러한 변화를 추적해 나갈 계획입니다.
Claude는 몇 분이면 해결되는 간단한 식품 조리 질문부터 수 시간이 걸리는 복잡한 법률·경영 작업까지, 난이도가 크게 다른 업무를 처리합니다. 그렇다면 이 모든 것을 종합한 경제적 효과는 어느 정도일까요?
Claude의 작업별 시간 추정치를 기반으로(향후 10년간 보편적 도입을 가정) 현재 모델만으로도 미국 노동 생산성이 연 1.8% 상승할 수 있다는 결론에 도달했습니다. 이는 최근의 노동 생산성 성장률을 두 배로 끌어올리는 수준입니다. 현재 AI 활용 패턴을 기준으로, 이러한 향상은 기술, 교육, 전문 서비스 분야에 집중되며, 소매업, 음식점업, 운송업의 영향은 미미할 것으로 보입니다. 모델 역량, 제품, 도입률이 발전함에 따라 Economic Index의 일환으로 이러한 변화를 지속적으로 추적해 나갈 것입니다.
이러한 생산성 향상은 기존 작업의 수행 속도를 높이는 데서 비롯됩니다. 하지만 역사적으로, 전기화·컴퓨팅·인터넷과 같은 혁신적 생산성 도약은 기존 작업의 속도 향상이 아니라 생산 방식 자체의 근본적 재편에서 나왔습니다. 이러한 미래에서는 AI가 단순히 기능 구현 속도를 높이는 것에 그치지 않고, 기업이 AI 또는 기타 수단을 활용해 미팅과 코드 리뷰를 재설계하여 검증과 배포까지 더 빠르게 완료하는 방식으로 나아갑니다.
저희의 프레임워크는 이러한 구조조정의 효과를 추정하는 데 활용될 수 있지만, 어떤 변화가 일어날지, 얼마나 빠르게 진행될지는 예측할 수 없습니다. 향후 중요한 연구 방향은 바로 이 질문입니다—기업이 언제, 어떻게 AI 역량에 맞춰 조직을 재편하고 있는지를 더 깊이 이해하는 것입니다. 그 답이 AI가 상당하지만 한정된 생산성 향상에 머무를지, 역사적 기술 혁명을 정의해온 구조적 전환으로 도약할지를 결정짓게 될 것입니다.
이 글을 인용하시려면 아래의 Bibtex 키를 사용해 주세요:
@online{tamkinmccrory2025productivity,
author = {Alex Tamkin and Peter McCrory},
title = {Estimating AI productivity gains from Claude conversations},
date = {2025-11-05},
year = {2025},
url = {https://www.anthropic.com/research/estimating-productivity-gains},
}
사람 기준 소요 시간 추정 프롬프트
Human: Consider the following conversation:
<conversation>
{{TRANSCRIPT}}
</conversation>
Estimate how many hours a competent professional would need to complete the tasks done by the Assistant.
Assume they have:
- The necessary domain knowledge and skills
- All relevant context and background information
- Access to required tools and resources
Before providing your final answer, use <thinking> tags to break down your reasoning process:
<thinking>
2-5 sentences of reasoning estimating how many hours would be needed to complete the tasks.
</thinking>
Provide your output in the following format:
<answer>A number representing hours (can use decimals like 0.5 for shorter tasks)</answer>
Assistant: <thinking>상호작용 시간 추정 프롬프트
Human: Consider the following conversation:
<conversation>
{{TRANSCRIPT}}
</conversation>
Estimate how many minutes the user spent completing the tasks in the prompt with the model.
Consider:
- Number and complexity of human messages
- Time reading Claude's responses
- Time thinking and formulating questions
- Time reviewing outputs and iterating
- Realistic typing/reading speeds
- Time implementing suggestions or running code outside of the converesation (only if directly relevant to the tasks)
Before providing your final answer, use <thinking> tags to break down your reasoning process:
<thinking>
2-5 sentences of reasoning about how many minutes the user spent.
</thinking>
Provide your output in the following format:
<answer>A number representing minutes</answer>
Assistant: <thinking>소프트웨어 개발 시간 추정 프롬프트
Human: You are estimating software development tasks for open-source projects. Provide ONLY a number in hours (e.g., 0.3, 1.6, 15). Do not explain.
Task: {task}
Description: {description}:
Estimate (hours):
Assistant:작업 시간 추정 프롬프트
You are estimating how much time workers in the occupation "{occupation_title}" spend on each of their job tasks.
Below is the complete list of tasks for this occupation. For each task, estimate how many hours per week a typical worker spends on it.
Important: Don't worry about making the hours sum to exactly 40 or any specific total - we'll normalize the results afterward. Just give your best estimate for each task independently based on what seems realistic.
Tasks:
{tasks}
Return ONLY a JSON object mapping each task_id to your estimated hours per week, with no additional text, explanations, or commentary. Format:
{{
"task_id_1": hours,
"task_id_2": hours,
...
}}"""