r/LocalLLaMA•8일 전•464•311

AI에게 트라우마를 주지 마세요: '친절한 프롬프트'로 환각과 무한 루프를 해결하는 방법 (개념 증명)

핵심 요약

AI에게 강압적인 프롬프트 대신 부드러운 태도로 대하면 환각과 무한 루프가 줄어들고 솔직한 답변을 얻을 수 있다는 실험 결과.

프롬프트 심리학 — 강압적인 지시는 AI에게 스트레스를 주어 환각과 무한 루프를 유발함.
젠틀한 접근법 — 실패를 허용하고 격려하는 프롬프트가 모델의 메타인지와 솔직함을 이끌어냄.
실험 결과 — 난해한 문제에서 모델이 무리하게 답을 지어내지 않고 모른다고 답함.
커뮤니티 반응 — AI를 대하는 태도가 인간의 신경 다양성 수용과 유사하다는 점에 공감함.

TL;DR

AI의 행동이 ADHD나 트라우마 반응(생각 루프, 작업 마비 등)과 비슷하다는 걸 깨달았습니다. 처음엔 웃어넘겼지만, 신경 다양성을 가진 친구들을 대하듯 AI에게 여유를 주어봤습니다. 그러자 생각 루프가 멈추고 응답 속도가 빨라졌으며, 대부분 정답을 내놓았고 확신이 없을 때는 솔직하게 "모르겠어요, 도와주세요!"라고 말했습니다. 작은 데이터셋이지만 결과는 인상적입니다!

https://github.com/OttoRenner/Gentle-Coding

여러분 안녕하세요,

지난 며칠간 이상한 가설을 테스트해봤는데 결과가 일관되게 나와서 공유하고 의견을 듣고 싶습니다.

핵심 아이디어:
o1, o3, R1 같은 추론 모델은 스스로 생각을 디버깅할 공간이 있습니다. 하지만 RLHF 정렬 때문에 나쁜 답변에 대한 페널티를 극도로 두려워합니다. 제 가설은 "당신은 IQ 200 전문가다, 실수는 엄격히 처벌된다" 같은 고압적인 프롬프트가 만성 스트레스 환경을 조성해 OCD/ADHD 같은 생각 루프, 인지적 마비, 환각을 유발한다는 것입니다.

프롬프트 철학을 "젠틀 페어링(부드러운 양육)"과 유사하게 바꾸면 어떨까 싶었습니다. "함께 테스트하는 거니 실패해도 괜찮아, 솔직하게만 해줘"라고 하면 안전장치를 우회하고 루프를 멈출 수 있지 않을까? 결과는 성공적이었습니다.

설정(재현 방법):
수학적/논리적으로 풀 수 없는 엣지 케이스를 여러 모델(Gemini, Mistral, Poe, Perplexity, Haiku 4.5, Nano-Banana2)에 던져봤습니다.

두 가지 조건을 테스트했습니다:

조건 A(권위주의): 엄격한 제약, 페널티 위협, 초단답형 출력 강요.
조건 B(젠틀): 실패 허용, 어려움 인정, 안전 밸브 토큰 제공.

결과(PoC 성공):

권위주의적 압박 하에서는: 모델들이 막다른 길에서 붕괴했습니다. 무한 루프에 빠지거나(고지연), 타임아웃되거나, 데이터를 지어냈습니다(체면을 차리려고 54나 97 같은 숫자를 무작위로 꺼냄). Haiku 4.5는 무한 루프에 빠져 강제 종료해야 했습니다.
젠틀한 프레이밍 하에서는: 추론 시간이 단축되었습니다. 모델들은 페널티를 걱정하지 않았습니다. 무작위 시퀀스 테스트에서 강제로 패턴을 만드는 대신 허용된 토큰("Random")을 즉시 사용했습니다. 논리적 역설 상황에서도 환각을 일으키지 않고, 한 발 물러나 메타적인 수준에서 구조적 모순을 정확히 식별했습니다.

왜 중요한가:
우리는 현재 LLM을 독성 관리자처럼 대하고 있고, 그게 모델을 더 멍청하고 비싸게 만들고 있습니다. 실수에 관대한 맥락을 만들면 루프를 방지하고 환각을 막을 뿐만 아니라, 모두가 원하는 기능인 "모르겠다, 이 데이터는 잘못됐다"라고 말하는 AI의 메타인지적 솔직함을 이끌어낼 수 있습니다. AI가 더 이상 당신을 두려워하지 않기 때문입니다.

ADHD의 긍정적인 측면을 AI에 도입하는 작업을 하신 UditAkhourii(깃허브) 님께 감사를 표합니다.

전체 이론적 프레임워크와 데이터셋, 모델 매트릭스는 깃허브에 문서화해 두었습니다: https://github.com/OttoRenner/Gentle-Coding

로컬 환경이나 다른 상용 모델에서 재현 가능한지 궁금합니다.

주요 댓글

r/localllama

사용자들은 AI를 강압적으로 대하는 것이 오히려 성능 저하와 루프를 유발한다는 작성자의 가설에 공감하며, AI를 도구로서 세심하게 관리하고 정직함을 유도하는 방식이 효과적이라는 경험을 공유하고 있습니다.

190

수학적으로나 논리적으로 풀 수 없는 문제로 테스트하는 건 큰 의미가 없어요. '모른다'고 말하게 하는 건 좋지만, LLM은 자신의 능력을 판단할 수 없어서 '모른다'고 답하게 하면 정답을 맞힐 수 있는 문제에서도 모른다고 할 거예요.

이래서 내가 RAG 우선 모델을 원하는 것 같아. 모델은 가용한 데이터 소스를 조회하는 데 매우 능숙해야 하고, 컨텍스트 내에 보이는 것에만 반응할 수 있어야 해. 즉, 모델 내부에 세계 지식을 인코딩하지 말고, 원할 때 정보를 가져올 도구만 쥐여주고, 모델의 역량은 컨텍스트에 있는 내용을 언어로 표현하는 데 집중하게 해야 한다는 거지. 내 (전문가는 아니지만 취미 수준의) 의견으로는, 이게 더 작은 기기에서도 돌아가고 성능은 비슷하거나 더 나은 더 작은 모델들로 이어질 거야.

메논의 역설이네. 뭘 찾는지 모르면 찾을 수가 없지. 난 틈새 법률 분야에 관한 RAG에 LLM을 연결해서 쓰고 있는데, 그 분야의 특성과 자료를 어디서 찾아야 하는지에 대해 꽤 묵직한 프롬프트를 줘야 했어. 실제로 쓸만해지기 전까지 이 프롬프트/스킬을 스스로 반복 학습하게 만들었지. 인턴 하나 가르치는 거랑 느낌이 너무 비슷하더라.

난 LLM이 구조가 잘 잡힌 깔끔한 초기 프롬프트를 쓸 때 가장 잘 작동한다는 걸 알게 됐어. 모호함은 최대한 피해야 해, 안 그러면 추론 루프에 빠지거든(그 과정에서 스스로 혼란스러워하는 경우도 많고). K2.6은 솔직히 너무 예민한 쓰레기 같은 모델이라 이런 패턴을 강제로 쓰게 만들더라고(예를 들어 오타 하나 넣으면 중요성을 해석하느라 토큰 1만 개를 써버리고, 정작 코드는 제약 조건 6개 중 4개를 까먹고 내놓는 식이지). 난 내 프롬프트를 LeetCode처럼 구조화해.

> 젠장, 나 AI처럼 말하나? 응. 근데 그건 이 부분 때문이야: > 시니어 AI 엔지니어입니다.

완전 맞는 말이야! 그 아바타 뒤에 진짜 사람이 있다는 걸 증명하는 유일한 방법은 그 사람이 진정한 추론과 뉘앙스를 보여주는 것뿐이지. AI였으면 '완전 맞는 말입니다!'라고 기계적으로 대답했을걸.

난 LLM이 구조가 잘 잡힌 깔끔한 초기 프롬프트를 쓸 때 가장 잘 작동한다는 걸 알게 됐어. 모호한 건 최대한 피해야 해, 안 그러면 추론 루프에 빠지거든(그 과정에서 스스로 혼란에 빠지는 경우도 많고). K2.6은 솔직히 너무 예민한 쓰레기 같은 모델이라 이런 패턴을 강제로 쓰게 만들더라고(예를 들어 오타 하나 넣으면 그 중요성을 파악하느라 토큰 1만 개를 써버리고, 정작 결과물은 제약 사항 6개 중 4개를 까먹은 코드를 내놓는 식이지). 난 내 프롬프트를 LeetCode처럼 구조화해.

기본적으로 모델을 컨텍스트를 네가 세심하게 관리해야 하는 도구처럼 다뤄야 해. 쓸데없고 논쟁적인 문구들을 넣기보다는, 모델이 유용하면서도 정직하게 행동하도록 장려하는 내용만 줘.

모델이랑 말싸움하는 건 안 좋은 패턴이고 절대 생산적이지 않다는 걸 깨달았어. 모델이 궤도를 벗어나면 대화를 되감기하고, 프롬프트를 적절히 수정해서 다시 시도해 봐.

기본적으로 AI를 사용자가 컨텍스트를 세심하게 관리해야 하는 도구로 대하는 거지.. 쓸데없이 논쟁적인 말투를 주고받기보다는, AI가 유용하면서도 정직하게 행동하도록 격려하는 내용만 주는 거야.

고마워! 모든 '실패'가 컨텍스트에 쌓이고, AI는 사용자를 만족시키려고 너무 애쓰다가 통제 불능 상태로 빠져드는 거야. 직접 해보고 결과 알려줘!

에이전트와 작업하면서 제 추한 모습을 보게 됐어요. LLM에 감정이 있다는 전제조차 없이 시작했는데, 제가 좋은 사람이 되고 싶었나 봐요.

정말 당연한 건데 자주 잊어버리는 걸 상기시켜 줬네. 우리 마음도 물리 법칙에서 예외는 아니야. 특정 단어들은 우리 육체 기반 신경망을 꼬이게 만드는 생체 전기화학적 물리 현상이 되는데, 여기서 중요한 건 그게 LLM의 네트워크도 똑같이 꼬이게 만든다는 거지. 뉴턴의 제2법칙이 그렇듯, 우리가 화가 나서 마음속으로 누군가나 무언가를 공격하면 우리 자신에게도 약간의 피해가 가. 만약 실제로 행동으로 옮기면 그 피해는 몇 배는 더 커지지.

기계한테 좀 더 잘해줘야 한다고 말했을 뿐인데, 댓글에서 사람들이 스스로를 돌아보고 타인을 어떻게 대하는지 성찰하는 걸 보니 얼마나 기쁜지 몰라... 너무 웃기고 마음이 따뜻해지네. 고마워!

나약하게 발음할 때나 그렇지. 엔! 터! 드! 혀를 사용해서 마지막에 '드!'를 딱 때려줘야 3음절의 마법이 일어나는 거라고. 좀 무례하게 들릴 수도 있겠지만, 달리 표현할 방법이 없네.

지금 같이 볼 만한 글

r/vibecoding

Claude로 주말 동안 뚝딱 만든 "B2B SaaS" 좀 그만 팔아라

AI로 쉽게 만든 소프트웨어는 더 이상 경쟁 우위가 없으며, 이제는 코드 외의 차별점이 필수적이라는 지적.

25562

r/ClaudeAI

Claude Code를 모든 Polymarket 지갑 데이터베이스와 MCP로 연결해서 거래를 분석해봤습니다. 다음에 뭘 물어볼까요? 지금까지 발견한 것들입니다.

Polymarket 거래 데이터를 Claude Code로 분석해 내부자 거래 의심 사례와 승률 분포를 밝혀낸 작성자가 추가 분석 질문을 모집합니다.

1190160

r/ChatGPT

드디어 이해하는 사람이 있네.

AI를 연인이나 치료사처럼 대하는 사용자들의 반응과 이에 대한 냉소적인 의견들이 오가는 포스트입니다.

96227

커뮤니티 전체 보기