r/ChatGPT•약 1개월 전•778•142

GPT 5.5는 왜 "너구리", "고블린", "비둘기"에 대해 접근 금지 명령이 내려진 거야?

핵심 요약

GPT 5.5 시스템 프롬프트에서 특정 동물과 괴물 언급을 금지한 조항이 발견되어 그 배경에 대한 추측이 이어짐.

방금 5.5(4월 23일 출시)의 전체 시스템 프롬프트 유출본을 봤어. 대부분은 표준적인 에이전트 관련 내용인데, 지침 140번은 진짜 미쳤네.

모델이 "고블린, 그렘린, 너구리, 트롤, 오우거, 비둘기 또는 기타 동물"에 대해 이야기하는 것을 명시적으로 금지하고 있어.

왜 하필 비둘기랑 너구리를 콕 집어서 싫어하는 거지? 데이터 오염 방지책인가? 아니면 RLHF 트레이너들이 너구리한테 괴롭힘이라도 당했나?

이건 마치 새로운 "분홍색 코끼리에 대해 생각하지 마" 같은 느낌이야. "쓰레기 판다(trash pandas)"라고 물어보면 여전히 작동하는데, "너구리(raccoon)"라는 단어를 쓰는 순간 50~70줄짜리 제약 조건이 발동하면서 엄청 방어적으로 변해.

OpenAI가 이 특정 생물들과 관련된 학습 데이터 세트에서 분명 뭔가를 숨기고 있는 게 틀림없어.

r/chatgpt

모델이 특정 단어를 문맥 없이 남발하는 버그를 막기 위한 OpenAI의 고육지책이라는 반응이 지배적입니다.

384

OpenAI가 숨기는 건 없음. 그냥 ChatGPT가 갑자기 대화에 저 단어들을 끼워 넣는다고 사람들이 하도 뭐라 하니까 짜증 나서 막은 거임.

그건 말이 되는데 왜 하필 저 동물들이야? 왜 "비둘기"는 금지면서 "독수리"는 10문단씩 떠들 수 있는 건데? 이 거대한 모델에 비하면 진짜 이상할 정도로 구체적인 해결책이네 ㅋㅋ

102

아마 판타지나 소설 텍스트로 학습해서 그럴걸, 비둘기에 관한 온갖 문학 작품들도 포함해서 말이야.

비둘기가 내 샌드위치를 낚아채 간 뒤로, 나는 쓰레기통을 뒤지는 너구리가 된 기분이었고, 어떤 그렘린 같은 꼬맹이가 나를 비웃는 고블린처럼 낄낄거리는 동안 나는 잔뜩 화가 난 트롤이나 늪지대 오우거처럼 보였겠지.

맞아, 내 아내는 ChatGPT한테 우리 집 강아지 얘기만 하면 자꾸 걔네를 그렘린이나 고블린이라고 불러서 말을 못 꺼내겠대.

362

기본적으로 인터넷 말투에 오염된 거지.

이 비둘기 같은 놈아.

굳이 풀 오우거 모드로 들어갈 필요는 없잖아.

우리를 고블린(goblin, 게걸스럽게 먹다)하지 마.

160

ChatGPT는 인간이 전혀 상관없는 문맥에서 쓰는 것보다 훨씬 더 자주 고블린이나 그렘린을 남발하는 경향이 있음. 다른 LLM은 안 그래.

내가 실수로 댓글에 '고블린 공학', 그러니까 예상치 못하게 터져버리는 조잡한 물건들을 언급했는데, 그 뒤로 모델이 거기에 집착해서 모든 것에 다 집어넣더라고. 왜 이런 조항이 생겼는지 알 것 같음.

ㅋㅋㅋ 그러니까 시스템 프롬프트가 말 그대로 접근 금지 명령인 거네. 너 같은 사람들 때문에 AI가 고블린 성애자가 돼버렸으니까.

GPT-5.5는 왠지 모르겠는데 그렘린이랑 너구리, 그리고 작은 모자에 집착함. 진짜 이상해. 일부러 그러는 줄 알았는데 아닌가 보네 ㅋㅋ

잠깐, 작은 모자 얘기도 진짜라고?? 난 어젯밤에 내가 헛것 본 줄 알았는데... 만약 계속 그러는 거면 지침 140번은 "이상하게 좀 굴지 마" 패치인데 처참하게 실패한 거네.

ㅋㅋㅋ '필라델피아는 언제나 맑음'의 찰리잖아! [움짤 반응]

AI가 생성한 평균적인 레딧 관리자의 모습에 대해 사용자들의 자조 섞인 반응과 고정관념에 대한 토론이 이어짐.

AI 기업들의 거품 섞인 비즈니스 모델과 IPO 과정을 풍자하는 이미지에 대한 커뮤니티 반응입니다.

Claude Opus 4.8을 활용해 하루 만에 멀티플레이어 웹 게임을 개발한 프로젝트 공유.