대부분의 주요 모델에서 나타나는 지능의 급격한 하락
핵심 요약
2026년 4월 중순 이후 주요 AI 모델들의 성능이 눈에 띄게 저하되어, 사용자들이 모델의 지능 하락과 비용 절감을 위한 양자화 의혹을 제기함.
- 성능 저하 체감 — Claude, Gemini 등 주요 모델이 간단한 지시를 무시하고 답변이 짧아지는 등 지능이 하락함.
- 비용 절감 의혹 — 서비스 업체들이 수익성 악화를 이유로 모델을 과도하게 양자화하거나 성능을 제한하고 있음.
- 로컬 모델 선호 — 클라우드 서비스의 성능 저하로 인해 직접 GPU를 대여하거나 로컬 모델을 운영하려는 움직임이 커짐.
- 심리적 요인 논쟁 — 모델의 변화가 실제 성능 하락인지, 사용자가 모델의 패턴에 익숙해져서 생기는 심리적 현상인지에 대한 의견이 갈림.
2026년 4월 중순 현재, 모든 모델에서 지능이 크게 하락한 것을 체감하고 있다.
그리고 단순히 ChatGPT에 대한 이야기가 아니다.
Claude(Sonnet과 Opus 포함), Gemini, z.ai, Grok 등 모든 모델이 기본적인 지시를 무시하고, 간단한 작업조차 힘들어하며, 응답하는 데 시간이 매우 오래 걸린다. 게다가 출력 결과는 의도적으로 짧아지고 매우 얕아진 느낌이다. 마치 모델이 "심술 난" 상태인 것 같다. 내 커스터마이징이나 메모리가 영향을 준 게 아니라는 걸 확인하려고 시크릿 모드에서도 테스트해 봤다.
마치 그들이 의도적으로 우리가 서비스를 그만 쓰길 바라는 것 같다. 이제 우리의 데이터가 더 이상 필요 없어진 모양이다. 불과 2주 전만 해도 지금보다 훨씬 똑똑했었다.
이를 테스트하기 위해 H100을 대여해서, 두 인스턴스 모두에 같은 프롬프트(세차장으로 가는 길)를 사용하여 GLM 5를 테스트해 봤다. 대여한 GPU에서 실행한 GLM 5는 올바르게 답변했지만, z.ai에서 실행한 모델은 그렇지 못했다.
혹시 양자화 수준을 Q2 정도로 낮춘 걸까?
로컬로 돌리거나, GPU를 대여하거나, 아니면 양자화 수준을 직접 선택할 수 있는 AI 월간 서비스를 이용하는 게 답인 것 같다.


