GPT 5.5는 왜 "너구리", "고블린", "비둘기"에 대해 접근 금지 명령이 내려진 거야?
핵심 요약
GPT 5.5 시스템 프롬프트에서 특정 동물과 괴물 언급을 금지한 조항이 발견되어 그 배경에 대한 추측이 이어짐.
- 시스템 프롬프트 유출 — GPT 5.5의 지침 140번이 너구리, 고블린, 비둘기 등 특정 생물 언급을 명시적으로 금지함.
- 무분별한 단어 삽입 — 모델이 대화 맥락과 상관없이 해당 단어들을 남발하는 버그를 수정하기 위한 조치로 추정됨.
- 인터넷 신조어 오염 — LLM이 학습 데이터 내의 인터넷 밈이나 특정 표현에 과하게 집착하게 된 결과라는 분석임.
- 임시방편 패치 — 특정 단어 사용을 강제로 막는 방식이 근본적인 해결책보다는 '이상하게 굴지 마' 식의 땜질 처방이라는 지적임.
방금 5.5(4월 23일 출시)의 전체 시스템 프롬프트 유출본을 봤어. 대부분은 표준적인 에이전트 관련 내용인데, 지침 140번은 진짜 미쳤네.
모델이 "고블린, 그렘린, 너구리, 트롤, 오우거, 비둘기 또는 기타 동물"에 대해 이야기하는 것을 명시적으로 금지하고 있어.
왜 하필 비둘기랑 너구리를 콕 집어서 싫어하는 거지? 데이터 오염 방지책인가? 아니면 RLHF 트레이너들이 너구리한테 괴롭힘이라도 당했나?
이건 마치 새로운 "분홍색 코끼리에 대해 생각하지 마" 같은 느낌이야. "쓰레기 판다(trash pandas)"라고 물어보면 여전히 작동하는데, "너구리(raccoon)"라는 단어를 쓰는 순간 50~70줄짜리 제약 조건이 발동하면서 엄청 방어적으로 변해.
OpenAI가 이 특정 생물들과 관련된 학습 데이터 세트에서 분명 뭔가를 숨기고 있는 게 틀림없어.



