r/ClaudeAI•약 1개월 전•601•89

Claude 4.7이 125단어의 미공개 원고만으로 기자를 식별함

핵심 요약

Claude 4.7이 짧은 글만으로 작성자를 정확히 식별해내며, AI의 문체 인식 능력과 프라이버시 문제에 대한 논쟁이 일고 있습니다.

글쓰기 지문 인식 — Claude 4.7이 125단어의 짧은 글만으로 작성자를 식별함.
프라이버시 논란 — 개인의 문체가 AI에 의해 노출될 수 있다는 우려가 제기됨.
모델 성능 차이 — ChatGPT나 Gemini와 달리 Claude 4.7만이 작성자를 정확히 맞힘.
모델의 경직성 — 문체 식별 능력이 모델의 생성적 경직성과 연관되었을 가능성이 논의됨.

이게 왜 더 큰 화제가 안 되는지 놀랍지만, 여러분 생각은 어때요?

요약하자면: 작가 Kelsey Piper가 미공개 정치 칼럼 125단어를 4.7에 붙여넣었더니 자기 이름을 다시 뱉어냈습니다. 그녀는 로그아웃하고, API를 통해 실행하고, 친구 노트북에서 다시 시도했습니다. 그러고는 장르를 완전히 바꿔서 평소 쓰던 분야와 상관없는 미공개 산문(아이의 포켓몬 에세이에 대한 학교 진도 보고서, 1942년 전쟁 코미디 영화 리뷰)으로 테스트했습니다. Claude는 매번 그녀를 지목했고, ChatGPT와 Gemini는 틀렸습니다. 그녀의 글은 여기 있습니다.

그녀와 다른 대부분의 기사들은 이를 프라이버시 문제로 읽고 있습니다. 그 함의가 실재하기에 타당한 지적이지만, 저는 프라이버시라는 프레임이 더 흥미로운 결과를 가리고 있다고 생각합니다.

그녀가 테스트를 설계한 방식을 보세요. 그녀가 실행한 각 방법은 특정 대안적 설명을 배제했습니다. 로그아웃과 시크릿 모드는 계정 식별을 차단했습니다. 원시 API는 브라우저 핑거프린팅을 차단했습니다. 친구의 노트북은 로그인된 IP를 차단했습니다. 장르를 바꾼 테스트는 주제나 테마에 의한 식별 가능성을 배제했습니다. 이 네 가지가 모두 소진되었을 때 모델이 그녀를 알 수 있는 유일한 통로는 글 그 자체였습니다.

이것은 글쓰기 도구에서 그동안 '분위기' 논쟁(격식/캐주얼/문학적 드롭다운 등)이었던 *문체(voice)*가 사실은 frontier 모델이 125단어만으로 읽어낼 수 있을 만큼 뚜렷한 측정 가능한 다축 지문이라는 것을 의미합니다.

또한 모델 간의 비대칭성도 있습니다. 4.7은 125단어에서 이 능력을 갖췄지만, ChatGPT와 Gemini는 같은 테스트에서 그렇지 못했습니다. Anthropic이 사후 학습에서 무엇을 했든, 다른 모델들보다 산문을 읽는 데 더 뛰어난 모델을 만들어냈습니다. 비록 이 서브레딧에서 일주일 내내 논의된 회귀 분석에 따르면 산문을 생성하는 능력은 더 떨어지는 것으로 보이지만요. 이 두 사실은 아마 무관하지 않을 것입니다. 작성자를 식별할 수 있을 만큼 산문 패턴 구조를 깊이 인코딩한 모델은, 그럴듯하게도 생성할 때 더 경직되어 있을 것입니다. 자신의 중심 문체에서 벗어나기 더 어려운 것이죠. 읽기 능력과 경직성은 같은 특성을 두 가지 관점에서 본 것일지도 모릅니다... 누가 알겠어요?

저는 이것이 4.7이 작가들이 활용할 수 있는 능력을 갖췄음을 시사한다고 생각합니다. 하지만 다른 분들도 이 실험을 이런 식으로 읽고 계신지, 아니면 프라이버시가 가장 큰 주제가 되어야 하는지 궁금합니다.

주요 댓글

r/claudeai

사용자들은 AI가 작가의 문체를 식별하는 능력에 대해 흥미로워하면서도, 테스트 방식의 허점이나 학습 데이터 오염 가능성을 지적하며 회의적인 반응을 보이고 있습니다.

솔직히 말해서 테스트 방식이 좀 비전문적인 듯. API 쓰면 어차피 로그인해야 하잖아. 쿠키 지웠어도 로그인 안 함? 앤스로픽이 4.7 쿼리를 공짜로 풀어준 것도 아닐 테고.

다른 기기에서 친구가 해본 게 나름 대조군 역할을 했다고 봄. 다른 모델들은 다 틀렸으니까.

메모리 껐다고는 하는데, 학습 데이터에 자기 채팅 안 쓰겠다고 설정했는지는 말 안 함. 이미 질문하면서 모델 오염시킨 거 아님? '와 어떻게 알았어?!' 같은 반응도 했을걸. AI가 자기 문체 알아봤다고 생각하는 건 좀 자의식 과잉인 듯.

학습이랑 메모리는 별개임. 모델은 실시간으로 학습 안 됨.

새 모델 나올 때마다 테스트했다며. 그럼 이미 학습 데이터에 들어갔겠지. 매번 다른 글을 쓴 게 아니라면 말이야.

아니지. 제대로 된 대조군은 다른 장소에 있는 사람(같은 와이파이 쓰면 IP 같으니까)이 그 작가랑 전혀 상관없는 자기 계정으로 테스트하는 거임. 그게 유일하게 확실한 방법임. 나머지는 그냥 마술 트릭 같은 거임.

몇 년 전에 마이크 펜스 익명 기고문 사건 생각나네. 'lodestar'라는 단어 하나로 펜스 아니냐고 난리 났었잖아. 걔가 쓴 거 맞으면 4.7로 바로 잡겠네.

4chan 내부고발자들 조심해야겠네!

클로드 이미 그 작가 관련 이론들로 오염돼서 제대로 판단 못 할걸.

결국 국토안보부 다른 사람이 자기가 썼다고 인정했음.

이거 60% 확률로 밋 롬니 레딧 계정 같은데: https://www.reddit.com/u/HomelessRodeo/s/khGyYuVzlx 확인 좀 해보자.

사람들이 자기 글에 얼마나 많은 식별 정보가 담기는지 잘 모름. 단어 선택, 문장 부호 같은 거 말이야. 유명한 기자가 자기만의 문체가 있다면, AI가 그걸 알아채는 게 성우 목소리 구분하는 것보다 놀랄 일도 아님.

처음엔 감탄했는데, 알고 보니 다른 사람 글에도 다 Kelsey Piper라고 찍는 거였음.

Kelsey Piper가 그냥 LLM의 '모르겠으면 일단 던져보는 이름'인 건가?

학습 데이터에 특정 인물 글이 많으니까 당연히 인식하기 쉽지. 문체 지문이라는 결론은 좀 성급함. 그냥 주제 때문에 좁혀진 걸 수도 있음. 아예 상관없는 주제로도 테스트해 봤나?

지금 같이 볼 만한 글

r/ClaudeAI

앤스로픽 청구서

앤스로픽에서 날아온 15,000달러 규모의 거액 청구서를 보고 놀란 커뮤니티 반응입니다.

5599146

r/ClaudeCode

Claude가 이 교훈을 배우게 하려면 어떤 걸 써야 할까?

Claude의 지시사항 무시 문제를 해결하기 위해 스킬을 설정해도 여전히 고통받는 사용자의 고민.

25043

r/ChatGPT & r/cursor

딱 한 번만 더 프롬프트 넣어보자

AI 코딩(vibe coding)에 돈을 쏟아붓는 상황을 카지노 도박에 비유하며 공감을 얻고 있습니다.

151246

커뮤니티 전체 보기