r/LocalLLaMA•약 2개월 전•691•388

대부분의 주요 모델에서 나타나는 지능의 급격한 하락

핵심 요약

2026년 4월 중순 이후 주요 AI 모델들의 성능이 눈에 띄게 저하되어, 사용자들이 모델의 지능 하락과 비용 절감을 위한 양자화 의혹을 제기함.

성능 저하 체감 — Claude, Gemini 등 주요 모델이 간단한 지시를 무시하고 답변이 짧아지는 등 지능이 하락함.
비용 절감 의혹 — 서비스 업체들이 수익성 악화를 이유로 모델을 과도하게 양자화하거나 성능을 제한하고 있음.
로컬 모델 선호 — 클라우드 서비스의 성능 저하로 인해 직접 GPU를 대여하거나 로컬 모델을 운영하려는 움직임이 커짐.
심리적 요인 논쟁 — 모델의 변화가 실제 성능 하락인지, 사용자가 모델의 패턴에 익숙해져서 생기는 심리적 현상인지에 대한 의견이 갈림.

2026년 4월 중순 현재, 모든 모델에서 지능이 크게 하락한 것을 체감하고 있다.

그리고 단순히 ChatGPT에 대한 이야기가 아니다.

Claude(Sonnet과 Opus 포함), Gemini, z.ai, Grok 등 모든 모델이 기본적인 지시를 무시하고, 간단한 작업조차 힘들어하며, 응답하는 데 시간이 매우 오래 걸린다. 게다가 출력 결과는 의도적으로 짧아지고 매우 얕아진 느낌이다. 마치 모델이 "심술 난" 상태인 것 같다. 내 커스터마이징이나 메모리가 영향을 준 게 아니라는 걸 확인하려고 시크릿 모드에서도 테스트해 봤다.

마치 그들이 의도적으로 우리가 서비스를 그만 쓰길 바라는 것 같다. 이제 우리의 데이터가 더 이상 필요 없어진 모양이다. 불과 2주 전만 해도 지금보다 훨씬 똑똑했었다.

이를 테스트하기 위해 H100을 대여해서, 두 인스턴스 모두에 같은 프롬프트(세차장으로 가는 길)를 사용하여 GLM 5를 테스트해 봤다. 대여한 GPU에서 실행한 GLM 5는 올바르게 답변했지만, z.ai에서 실행한 모델은 그렇지 못했다.

혹시 양자화 수준을 Q2 정도로 낮춘 걸까?

로컬로 돌리거나, GPU를 대여하거나, 아니면 양자화 수준을 직접 선택할 수 있는 AI 월간 서비스를 이용하는 게 답인 것 같다.

주요 댓글

r/localllama

대부분의 사용자가 최근 모델들의 성능 저하를 체감하고 있으며, 그 원인으로 비용 절감을 위한 양자화나 서비스 업체의 의도적인 성능 제한을 의심하고 있음.

687

다들 모델을 양자화하고 있어. 왜냐하면 다들 돈이 부족해서 허덕이고 있고, OpenClaw가 대놓고 업계 전체를 쥐어짜고 있거든.

139

참고로, 며칠 동안 Gemma 4 e4b를 테스트용으로 돌려보고 있는데 결과가 꽤 고무적이야. 적어도 내 사용 사례에서는 말이지.

그렇게 작은 모델로 처리할 수 있는 사용 사례가 뭐야?

나는 OpenClaw는 안 써. 하지만 예를 들어 캘린더 일정 가져오기, 이메일 정리하기, 서비스 연동해서 작업하기 같은 건 꽤 직관적이지. 단순 반복적인 관리 업무는 이런 작은 모델로도 충분히 잘 돌아가.

OpenClaw의 개발과 그 여파는 AI 경쟁에 재앙이었어.

진심으로 몇 주 깔짝거리는 거 말고 실제로 OpenClaw를 쓰는 사람이 있긴 한지 의문이야.

OpenClaw나 그게 AI 경쟁에 미친 영향에 대해 잘 모르는 문외한인데, 무슨 뜻인지 설명해 줄 수 있어?

OpenClaw는 LLM이 제어하는 에이전트를 설정해서 특정 작업을 자율적으로 수행하게 만드는 에이전트 하네스 프레임워크야. 이게 재앙인 이유는 에이전트들이 사람의 모니터링 없이 방치되기 때문인데, 꽤 비효율적일 수 있어. 만약 생각 루프에 빠지면, 사람이 개입할 때까지 계속 API 사용량과 처리 능력을 잡아먹거든. 애초에 OpenClaw를 쓰고 있다면 아마 에이전트를 계속 모니터링하고 있지도 않을걸. 기본적으로 이건 낭비야.

232

얼마나 많은 요청이 '증류 시도'로 플래그 처리되어서 일부러 나쁜 결과를 받게 되는지 궁금하네. 특히 '벤치마크처럼 보이는' 것들은 더더욱.

OpenAI 모델들(20달러 구독, 채팅이랑 코덱스 에이전트 둘 다)이 가끔 멍청한 모델로 라우팅되는 것 같다는 걸 느꼈어. 보통 답변이 시처럼 줄바꿈이 많은 헛소리로 시작되는데, 줄당 단어 수는 적으면서 전체적으로는 화면 두 페이지 분량의 답변이 나오거든. 알맹이는 하나도 없고.

129

분명히 더 높은 지능이 필요하지 않아 보이는 사용자들에게 모델을 동적으로 양자화하기 시작할 거야, 이미 그러고 있지 않다면 말이지. 어떤 사람들은 성능이 너프될 수도 있고, 반대로 그들이 훔치고 싶어 하는 중요한 일을 하는 사람들은 세상의 모든 컴퓨팅 자원을 다 가져가겠지.

맞아. 결국 사용자가 제공할 수 있는 데이터의 질이 핵심이야. 특히 돈을 안 내는 사용자들은 더더욱 그렇지(대부분의 사용자는 AI에 돈을 안 내니까).

127

심리적인 문제일 수도 있어. 우리가 LLM의 '산문'과 스타일에 익숙해지면서, 그 허점을 꿰뚫어 보고 흔한 실패 패턴을 인식하는 데 더 능숙해지는 거지. 나는 여전히 침묵의 양자화를 감지하는 가장 좋은 방법은 챗봇 하네스의 HLE 공개 질문 세트 같은 공통 벤치마크에서 모델 간의 공분산을 찾는 거라고 생각해. 그렇게 하면 Gemini가 어제보다 Opus 대비 20% 낮은 점수를 받거나, 특정 시간대에만 점수가 낮아지는 걸 알 수 있겠지.

심리적인 문제는 아니라고 봐. LLM과 작업하거나 헤비 유저가 되면 LLM 자체의 변화에 매우 민감해지거든. 플랫폼의 변화를 지적하는 건 보통 사용자들인데, 나중에 대중의 항의가 있고 나서야 확인되는 경우가 많아. 나도 개인적으로 4월 초부터 내가 주로 쓰는 모델 전반에서 지능 하락을 체감했어.

> 테스트를 위해 H100을 대여해서 같은 프롬프트(세차장으로 가는 길)로 GLM 5를 두 인스턴스에서 돌려봤어. 대여한 GPU에서 돌린 GLM 5는 제대로 답했는데, z.ai에서 돌린 건 틀렸더라고. 두 결과 다 보고 싶네 🙏

지금 같이 볼 만한 글

r/ClaudeCode

Claude가 이 교훈을 배우게 하려면 어떤 걸 써야 할까?

Claude의 지시사항 무시 문제를 해결하기 위해 스킬을 설정해도 여전히 고통받는 사용자의 고민.

25043

r/OpenAI

ChatGPT가 역사상 가장 빠르게 월간 활성 사용자 10억 명을 달성한 앱이 되었습니다.

ChatGPT의 10억 MAU 달성 소식에 대해 데이터의 신뢰성과 실제 수익성 등을 두고 사용자들 간의 논쟁이 이어지고 있습니다.

52061

r/ChatGPT

ChatGPT한테 4chan 평균 유저들 모임 사진 그려달라고 했는데, 음...

ChatGPT로 생성한 4chan 유저 모임 이미지에 대한 레딧 유저들의 자조 섞인 농담과 반응들.

977204

커뮤니티 전체 보기