Anthropic은 신뢰할 수 있고, 해석 가능하며, 제어 가능한 AI 시스템을 만들기 위해 연구하는 AI 안전 연구 기업입니다.
AI가 업무의 특정 부분을 더 빠르게 처리하도록 돕는다는 사실은 여러 연구를 통해 확인되었습니다. Claude.ai 데이터를 활용한 관찰 연구에서는 AI가 일부 작업의 속도를 최대 80%까지 높일 수 있다는 결과가 나왔습니다. 하지만 이러한 생산성 향상에는 대가가 따르지 않을까요? 다른 연구들에 따르면, AI 도움을 받는 사람들은 업무 몰입도가 떨어지고 스스로 투입하는 노력의 양도 줄어드는 것으로 나타났습니다. 다시 말해, 사고 과정 자체를 AI에 위임하게 되는 것입니다.
이러한 인지적 위임(cognitive offloading)이 실무 역량의 성장을 저해하는지, 코딩의 경우에는 자신이 만들고 있는 시스템에 대한 이해를 약화시키는지는 아직 명확하지 않습니다. 이번 연구에서는 소프트웨어 개발자를 대상으로 무작위 대조 시험(RCT)을 실시하여, AI 활용이 업무 역량에 미칠 수 있는 부작용을 살펴보았습니다.
이 질문은 광범위한 시사점을 갖습니다. 학습을 촉진하는 AI 제품 설계, 기업의 AI 도입 정책, 나아가 사회 전반의 역량 유지에 이르기까지 다양한 영역에 영향을 미칩니다. 우리는 AI 도구가 빠르게 표준으로 자리 잡은 코딩 분야에 초점을 맞추었습니다. 코딩 영역에서 AI는 본질적인 긴장을 만들어냅니다. 자동화가 진행되고 작업 속도가 빨라질수록, 개발자에게는 오류를 잡아내고, 결과물을 검증하며, 고위험 환경에서 AI를 감독할 수 있는 역량이 여전히 필요하기 때문입니다. AI는 역량 개발과 효율성 향상을 동시에 달성할 수 있는 지름길일까요? 아니면 AI를 통한 생산성 향상이 오히려 역량 개발을 저해하는 것일까요?
무작위 대조 시험을 통해 두 가지를 검증했습니다. 첫째, AI 도움 유무에 따라 소프트웨어 개발자가 새로운 기술(이 경우 Python 라이브러리)을 익히는 속도에 차이가 있는지, 둘째, AI를 사용하면 방금 직접 작성한 코드에 대한 이해도가 떨어지는지 여부입니다.
실험 결과, AI 도움을 받은 그룹은 통계적으로 유의미한 수준으로 숙련도가 낮았습니다. 불과 몇 분 전에 다뤘던 개념을 평가하는 퀴즈에서, AI 그룹은 직접 코딩한 그룹보다 점수가 17% 낮았으며 이는 학점 기준 약 2등급 차이에 해당합니다. AI 사용 시 작업 속도는 다소 빨랐지만, 통계적 유의 수준에는 미치지 못했습니다.
중요한 점은, AI를 사용했다고 해서 반드시 낮은 점수를 받은 것은 아니라는 사실입니다. AI를 어떻게 활용했느냐에 따라 정보 습득량이 달라졌습니다. 높은 숙련도를 보인 참가자들은 AI를 단순히 코드 생성 도구로만 쓰지 않고, 이해를 쌓아가는 데 함께 활용했습니다. 후속 질문을 하거나, 설명을 요청하거나, 직접 코딩하면서 개념적 질문을 던지는 방식이었습니다.
52명의 소프트웨어 엔지니어(대부분 주니어)를 모집했으며, 모두 1년 이상 주 1회 이상 Python을 사용한 경험이 있었습니다. 또한 AI 코딩 도구에 어느 정도 익숙하되, 이번 실험 과제에 사용된 Python 라이브러리인 Trio에는 익숙하지 않은 사람들로 선별했습니다.
실험은 세 단계로 진행되었습니다. 워밍업, Trio를 활용하여 두 가지 기능을 구현하는 본 과제(비동기 프로그래밍 관련 개념 이해가 필요하며, 이는 주로 실무 환경에서 익히는 기술입니다), 그리고 퀴즈입니다. 참가자들에게는 과제 후 퀴즈가 있다는 점을 사전에 알려주었지만, 가능한 한 빠르게 작업을 완료하도록 독려했습니다.
코딩 과제는 누군가가 자기주도형 튜토리얼을 통해 새로운 도구를 배우는 상황을 모사하도록 설계했습니다. 각 참가자에게는 문제 설명, 스타터 코드, 그리고 문제 풀이에 필요한 Trio 개념에 대한 간단한 설명이 제공되었습니다. 온라인 코딩 플랫폼의 사이드바에 AI 어시스턴트가 배치되어 참가자의 코드에 접근할 수 있었으며, 요청하면 언제든 정답 코드를 생성할 수 있었습니다.1

평가 설계에는 컴퓨터 과학 교육 분야의 연구를 참고하여, 코딩 숙련도를 측정하는 데 흔히 사용되는 네 가지 유형의 문제를 도출했습니다.
평가에서는 디버깅, 코드 읽기, 개념 이해 문제에 가장 큰 비중을 두었습니다. 앞으로 AI가 생성한 코드에 대한 감독 역량으로서 이 세 가지가 가장 중요하다고 판단했기 때문입니다.
평균적으로 AI 그룹은 약 2분 더 빨리 과제를 완료했지만, 통계적으로 유의미한 차이는 아니었습니다. 반면 퀴즈 점수에서는 유의미한 차이가 나타났습니다. AI 그룹의 평균 점수는 50%인 데 비해, 직접 코딩한 그룹은 67%로, 학점 기준 약 2등급 차이에 해당합니다(Cohen's d=0.738, p=0.01). 두 그룹 간 점수 차이가 가장 큰 영역은 디버깅 문제였습니다. AI가 코딩 역량 개발을 저해할 경우, 코드 오류를 인지하고 실패 원인을 파악하는 능력이 특히 취약해질 수 있음을 시사합니다.

참가자들이 과제를 어떻게 수행했는지를 파악하는 것이 특히 중요했습니다. 정성적 분석에서는 화면 녹화를 직접 검토하며 참가자가 쿼리 작성에 소요한 시간, 질문 유형, 발생한 오류 유형, 그리고 직접 코딩에 할애한 시간을 분류했습니다.
놀라운 결과 중 하나는 참가자들이 AI 어시스턴트와 상호작용하는 데 상당한 시간을 투자했다는 점입니다. 일부 참가자는 최대 15개의 쿼리를 작성하며 11분(전체 할당 시간의 30%)까지 사용했습니다. 이는 AI 사용 그룹이 평균적으로 더 빨리 과제를 끝냈음에도 불구하고 생산성 향상이 통계적으로 유의미하지 않았던 이유를 설명해줍니다. 반복적이거나 이미 익숙한 작업에서는 AI가 생산성을 유의미하게 높일 가능성이 더 크다고 예상합니다.
예상대로, AI를 사용하지 않은 그룹에서 더 많은 오류가 발생했습니다. 문법 오류와 Trio 개념 관련 오류가 모두 포함되었으며, 후자는 퀴즈 출제 범위와 직접적으로 연결됩니다. Trio 관련 오류를 더 많이 경험한 참가자(즉, 대조군)가 오류를 독립적으로 해결하는 과정에서 디버깅 역량을 향상시켰을 것이라는 것이 우리의 가설입니다.
이어서 참가자들의 AI 상호작용 방식을 분류한 결과, 과제 완료 시간과 학습 성과에 서로 다른 영향을 미치는 뚜렷한 패턴들이 확인되었습니다.
낮은 점수 패턴: 낮은 점수를 받은 패턴들은 대체로 코드 생성이든 디버깅이든 AI에 크게 의존하는 양상을 보였습니다. 이 그룹의 평균 퀴즈 점수는 40% 미만이었으며, 독립적 사고가 적고 인지적 위임이 두드러졌습니다. 세부적으로 다음과 같이 구분했습니다.
높은 점수 패턴: 평균 퀴즈 점수가 65% 이상인 패턴을 높은 점수 패턴으로 분류했습니다. 이 그룹의 참가자들은 코드 생성과 개념 질의 모두에 AI를 활용했습니다.
이번 정성적 분석은 상호작용 패턴과 학습 성과 사이의 인과 관계를 증명하지는 못하지만, 서로 다른 학습 성과와 관련된 행동 양상을 보여줍니다.
이번 연구 결과는 AI를 업무 환경에, 특히 소프트웨어 엔지니어링에 적극적으로 도입할 때 감수해야 할 트레이드오프가 있음을 시사합니다. 모든 AI 의존이 같지 않다는 점이 핵심입니다. 효율성을 추구하면서 AI와 상호작용하는 방식에 따라 학습량이 달라집니다. 시간 압박과 조직 내 성과 요구 속에서, 주니어 개발자나 다른 직군의 초보자들은 역량 개발을 포기하면서까지 AI에 의존해 작업을 최대한 빨리 끝내려 할 수 있습니다. 특히 문제가 발생했을 때 디버깅하는 능력이 취약해질 위험이 있습니다.
예비적인 결과이지만, 기업들이 AI 작성 코드와 인간 작성 코드의 비율을 높여가는 과정에서 중요한 시사점을 던집니다. 주니어 엔지니어의 역량 개발이 AI 사용으로 인해 처음부터 저해되었다면, 생산성 향상이 오히려 AI 작성 코드를 검증하는 데 필요한 역량의 약화로 이어질 수 있습니다. 관리자는 AI 도구의 대규모 도입 방식을 신중히 설계해야 하며, 엔지니어가 업무를 수행하면서도 지속적으로 학습할 수 있는 시스템이나 의도적인 설계를 고려해야 합니다. 그래야만 자신이 구축하는 시스템에 대해 실질적인 감독 역량을 발휘할 수 있습니다.
소프트웨어 엔지니어링이든 다른 산업이든, 초보 실무자에게 이번 연구는 AI 도구를 활용하면서도 의도적으로 역량을 개발해야 한다는 점을 뒷받침하는 하나의 근거가 됩니다. 인지적 노력, 심지어 막혀서 고통스러운 시간조차 숙련도를 쌓는 데 중요할 가능성이 높습니다. 이는 개인이 AI와 협업하는 방식이나 어떤 도구를 선택하느냐에도 적용되는 교훈입니다. 주요 LLM 서비스들도 이해 증진을 목적으로 한 학습 모드를 제공하고 있습니다(예: Claude Code Learning and Explanatory 모드, ChatGPT Study Mode). 사람들이 AI를 사용할 때 어떻게 학습하는지를 이해하면, AI 설계 방향에도 도움이 됩니다. AI 도구는 인간이 더 효율적으로 일하면서 동시에 새로운 역량을 키울 수 있도록 설계되어야 합니다.
AI가 코딩 생산성을 높이는지 저해하는지에 대해서는 기존 연구들의 결과가 엇갈립니다. 저희의 이전 연구에서는 AI가 일부 업무 작업의 소요 시간을 최대 80%까지 줄일 수 있다는 결과가 나왔는데, 이번 연구 결과와 상충하는 것처럼 보일 수 있습니다. 하지만 두 연구는 서로 다른 질문을 던지고 다른 방법론을 사용합니다. 이전의 관찰 연구는 참가자가 이미 관련 역량을 갖춘 상태에서의 생산성을 측정한 반면, 이번 연구는 새로운 것을 배우는 상황에서 벌어지는 일을 살펴봅니다. AI가 이미 갖춘 역량에서는 생산성을 높이면서도 새로운 역량의 습득은 저해할 수 있다는 가능성이 있으며, 이 관계를 명확히 하려면 추가 연구가 필요합니다.
이번 연구는 인간-AI 협업이 실무자의 경험에 미치는 영향을 밝히기 위한 첫걸음에 불과합니다. 표본 규모가 비교적 작았고, 코딩 과제 직후의 이해도만 측정했습니다. 직후 퀴즈 성적이 장기적인 역량 개발을 예측할 수 있는지는 이번 연구에서 확인하지 못한 중요한 질문입니다. 코딩 외 작업에서 AI의 영향, 엔지니어의 숙련도가 높아지면 이러한 효과가 사라지는지, AI의 도움이 사람의 도움과 학습 측면에서 어떻게 다른지 등 향후 연구에서 다루어야 할 미해결 질문들이 많이 남아 있습니다.
궁극적으로, AI 시대에 역량 개발을 유지하려면 AI가 실무자에게 미치는 영향을 보다 폭넓은 시각으로 바라봐야 합니다. AI가 강화된 업무 환경에서 생산성 향상도 중요하지만, 그 생산성의 기반이 되는 전문성의 장기적 발전 역시 그에 못지않게 중요합니다.
자세한 내용은 전문을 참고하세요.
이 프로젝트는 Judy Hanwen Shen과 Alex Tamkin이 주도했습니다. 블로그 포스트 편집에는 Jake Eaton, Stuart Ritchie, Sarah Pollack이 참여했습니다.
Anthropic Safety Fellows Program을 통해 이 프로젝트를 가능하게 해주신 Ethan Perez, Miranda Zhang, Henry Sleight에게 감사드립니다. 또한 실험 설계에 대한 피드백을 제공해주신 Matthew Jörke, Juliette Woodrow, Sarah Wu, Elizabeth Childs, Roshni Sahoo, Nate Rush, Julian Michael, Rose Wang에게도 감사의 뜻을 전합니다.
@misc{aiskillformation2026,
author = {Shen, Judy Hanwen and Tamkin, Alex},
title = {How AI Impacts Skill Formation},
year = {2026},
eprint = {2601.20245},
archivePrefix = {arXiv},
primaryClass = {cs.LG},
eprinttype = {arxiv}
}
중요한 점은, 이번 실험 환경이 Claude Code와 같은 에이전틱 코딩 제품과는 다르다는 것입니다. 그러한 도구가 역량 개발에 미치는 영향은 이번 연구 결과보다 더 클 것으로 예상됩니다.