스킬 제작자는 이제 코딩 없이도 스킬 동작을 검증하고, 리그레션을 감지하며, 설명을 다듬을 수 있는 도구를 활용할 수 있습니다.
스킬 크리에이터는 이제 평가(eval) 작성, 벤치마크 실행은 물론, 모델이 발전하는 상황에서도 스킬이 제대로 동작하도록 유지하는 데 도움을 줍니다. 이번 업데이트는 Claude.ai와 Cowork에서 바로 사용할 수 있으며, Claude Code 플러그인과 공개 저장소를 통해서도 제공됩니다.
지난 10월 에이전트 스킬을 출시한 이후, 스킬 제작자 대부분이 엔지니어가 아닌 현업 전문가라는 사실을 확인했습니다. 이들은 자신의 워크플로우를 잘 알고 있지만, 새로운 모델에서도 스킬이 제대로 작동하는지, 적절한 시점에 트리거되는지, 수정 후 실제로 개선되었는지를 확인할 수 있는 도구가 없었습니다.
오늘 발표하는 스킬 크리에이터 개선 사항은 제작자가 더 자신 있게 스킬을 만들 수 있도록 돕습니다. 코드 작성 없이도 소프트웨어 개발의 엄격한 방법론(테스트, 벤치마킹, 반복 개선)을 스킬 제작 과정에 도입했습니다.
스킬은 크게 두 가지로 나뉩니다.
역량 향상(Capability uplift) 스킬은 기본 모델이 수행하지 못하거나 일관되게 수행하기 어려운 작업을 Claude가 해낼 수 있도록 도와줍니다. 문서 생성 스킬이 좋은 예입니다. 프롬프트만으로는 얻기 어려운 더 나은 결과물을 만들어 내는 기술과 패턴을 스킬 안에 담고 있습니다.
선호도 인코딩(Encoded preference) 스킬은 Claude가 각 단계를 이미 수행할 수 있지만, 팀의 프로세스에 맞게 순서를 정해두는 워크플로우 스킬입니다. 설정된 기준에 따라 NDA를 검토하거나, 다양한 MCP에서 가져온 데이터로 주간 업데이트를 작성하는 스킬이 이에 해당합니다.
이 두 유형의 스킬은 테스트가 필요한 이유가 다르기 때문에 구분이 중요합니다.
어느 유형이든, 테스트는 '잘 되는 것 같은' 스킬을 '확실히 작동한다고 아는' 스킬로 바꿔줍니다.
스킬 크리에이터는 이제 평가 작성을 도와줍니다. 평가란 특정 프롬프트에 대해 Claude가 기대한 대로 동작하는지 확인하는 테스트입니다. 소프트웨어 테스트를 작성해본 경험이 있다면 익숙하게 느껴질 것입니다. 테스트 프롬프트(필요하면 파일도 함께)를 정의하고, 좋은 결과가 어떤 모습인지 설명하면, 스킬 크리에이터가 스킬이 기준을 충족하는지 알려줍니다.
예를 들어, PDF 스킬은 이전에 입력 필드가 없는 양식(non-fillable forms) 처리에 어려움을 겪었습니다. 기준이 될 정의된 필드 없이 정확한 좌표에 텍스트를 배치해야 했기 때문입니다. 평가를 통해 실패 원인을 정확히 찾아냈고, 추출된 텍스트 좌표를 기준으로 위치를 고정하는 방식으로 수정했습니다.

평가는 다양한 방면에서 도움이 되지만, 특히 중요한 두 가지 활용 사례가 있습니다. 품질 리그레션 감지와 모델 발전 상황 파악입니다.
첫 번째는 품질 리그레션 감지입니다. 모델과 그 주변 인프라가 발전함에 따라, 지난달까지 잘 작동하던 스킬이 오늘은 다르게 동작할 수 있습니다. 새 모델을 대상으로 평가를 실행하면, 팀 업무에 영향을 미치기 전에 변화를 조기에 감지할 수 있습니다.
두 번째는 모델의 범용 역량이 스킬을 앞질렀는지 파악하는 것입니다. 이는 주로 역량 향상 스킬에 해당합니다. 스킬 없이도 기본 모델이 평가를 통과하기 시작한다면, 해당 스킬의 기법이 이미 모델의 기본 동작에 통합되었다는 신호입니다. 스킬이 망가진 것이 아니라, 더 이상 필요하지 않게 된 것입니다.
또한 벤치마크 모드도 추가했습니다. 작성한 평가를 활용해 표준화된 방식으로 성능을 측정하는 기능으로, 모델 업데이트 이후나 스킬을 반복 개선하는 과정에서 실행할 수 있습니다. 평가 통과율, 소요 시간, 토큰 사용량을 함께 추적합니다.

평가와 결과 데이터는 모두 사용자 소유입니다. 로컬에 저장하거나, 대시보드와 연동하거나, CI 시스템에 연결해 활용할 수 있습니다.
평가를 순차적으로 실행하면 시간이 오래 걸리고, 누적된 컨텍스트가 테스트 간에 영향을 미칠 수 있습니다. 스킬 크리에이터는 이제 멀티 에이전트 지원을 통해 독립적인 에이전트를 각각 실행해 평가를 병렬로 처리합니다. 각 에이전트는 독립된 컨텍스트에서 동작하며 토큰 및 시간 지표를 개별로 측정합니다. 결과는 더 빠르고, 테스트 간 교차 오염도 없습니다.
A/B 비교를 위한 비교 에이전트(comparator agents)도 추가했습니다. 두 가지 스킬 버전을 비교하거나, 스킬 적용 여부를 비교할 수 있습니다. 비교 에이전트는 어느 쪽이 어느 버전인지 모르는 상태에서 결과물을 평가하므로, 변경이 실제로 효과가 있었는지 객관적으로 판단할 수 있습니다.

평가는 출력 품질을 측정하지만, 그것은 스킬이 적절한 시점에 트리거될 때만 의미가 있습니다. 스킬 수가 늘어날수록 설명의 정확도가 매우 중요해집니다. 너무 광범위하면 불필요한 트리거가 발생하고, 너무 좁으면 아예 발동되지 않습니다. 스킬 크리에이터는 이제 더 안정적인 트리거를 위해 설명을 다듬는 작업을 돕습니다. 현재 설명을 샘플 프롬프트와 비교 분석하고, 오탐(false positive)과 미탐(false negative)을 모두 줄이는 수정 방향을 제안합니다.
문서 생성 스킬 전체에 이 기능을 적용한 결과, 공개 스킬 6개 중 5개에서 트리거 정확도가 향상되었습니다.

모델이 발전할수록 '스킬'과 '명세(specification)'의 경계가 흐려질 수 있습니다. 오늘날 SKILL.md 파일은 사실상 구현 계획서로, Claude에게 무언가를 어떻게 수행할지 상세하게 지시합니다. 하지만 시간이 지나면, 스킬이 무엇을 해야 하는지 자연어로 설명하는 것만으로 충분해지고, 나머지는 모델이 알아서 처리하는 시대가 올 수 있습니다.
오늘 공개하는 평가 프레임워크는 그 방향으로 나아가는 한 걸음입니다. 평가는 이미 '무엇을' 해야 하는지를 설명합니다. 언젠가는 그 설명 자체가 스킬이 될 수 있습니다.
스킬 크리에이터의 모든 업데이트는 지금 바로 Claude.ai와 Cowork에서 사용할 수 있습니다. Claude에게 스킬 크리에이터를 사용해 달라고 요청하면 바로 시작할 수 있습니다.