r/LocalLLaMA•약 1개월 전•1187•238

앤스로픽이 호스팅 모델의 지능을 낮췄음을 인정함, 오픈 웨이트 및 로컬 모델의 중요성 입증

핵심 요약

앤스로픽이 서버 부하를 위해 모델 성능을 몰래 낮춘 사실이 드러나며 로컬 모델의 필요성이 강조됨.

성능 저하 논란 — 앤스로픽이 서버 부하를 줄이려고 모델의 추론 능력과 설정을 임의로 변경함.
투명성 부재 — 사용자에게 알리지 않고 모델 성능을 조정한 행위가 큰 비판을 받음.
로컬 모델 대안 — 외부 의존도를 낮추기 위해 직접 호스팅 가능한 오픈 웨이트 모델이 주목받음.
비용 효율성 의문 — 성능이 저하된 모델에 동일한 요금을 지불하는 것에 대한 불만이 제기됨.

TL;DR:

3월 4일, UI가 멈춘 것처럼 보이는 긴 지연 시간을 줄이기 위해 Claude Code의 기본 추론 노력을 high에서 medium으로 변경했습니다. 이는 잘못된 선택이었습니다. 사용자들이 더 높은 지능을 기본값으로 선호하고 단순 작업에 대해서만 낮은 노력을 선택하고 싶어 한다는 의견을 듣고 4월 7일에 이 변경 사항을 되돌렸습니다. 이는 Sonnet 4.6과 Opus 4.6에 영향을 미쳤습니다.

3월 26일, 사용자가 세션을 재개할 때 지연 시간을 줄이기 위해 1시간 이상 유휴 상태였던 세션에서 Claude의 이전 사고 내용을 삭제하는 변경 사항을 배포했습니다. 버그로 인해 이 작업이 세션의 나머지 기간 동안 매 턴마다 계속 발생하게 되었고, 이로 인해 Claude가 건망증이 심하고 반복적인 것처럼 보이게 되었습니다. 4월 10일에 수정했습니다. 이는 Sonnet 4.6과 Opus 4.6에 영향을 미쳤습니다.

4월 16일, 장황함을 줄이기 위해 시스템 프롬프트 지침을 추가했습니다. 다른 프롬프트 변경 사항과 결합되어 코딩 품질을 저하시켰고 4월 20일에 되돌렸습니다. 이는 Sonnet 4.6, Opus 4.6, Opus 4.7에 영향을 미쳤습니다.

이 각각의 경우에서 그들은 최종 사용자가 전혀 통제할 수 없고 유료 고객에게 변경 사항을 알리지도 않은 채, 품질을 희생하면서 서버 부하를 낮추는 의식적인 선택을 했습니다.

저에게 있어 이는 서비스나 업무를 위해 AI 모델에 의존한다면, 직접 호스팅할 수 있거나 누군가에게 호스팅 비용을 지불할 수 있는 오픈 웨이트 모델을 선택하는 것이 유일하게 제정신인 선택임을 증명합니다.

주요 댓글

r/localllama

Anthropic의 모델 성능 저하가 의도된 인프라 최적화였음이 밝혀지면서, 사용자들은 투명성 부족에 분노하며 로컬 모델로의 전환을 강력히 지지하고 있음.

457

우리가 의심한다고 바보 취급하던 사람들 다 어디 갔냐. 여기 소스에서 직접 확인했잖아. 이번이 처음도 아님. 저번에도 서버 버그라고 둘러댔지만 우리 다 알고 있었지.

ChatGPT는 이제 그냥 멍청해짐. 이상한 인격이 생긴 것 같고 같은 실수를 계속 반복함.

무료 버전 ChatGPT는 진짜 답답해서 못 쓰겠음. Claude나 Gemini보다 훨씬 구리고, 틀린 답을 당당하게 말하면서 훈계질까지 함. 무료 티어에 14B나 70B 같은 쪼끄만 모델 쓰는 거 아님?

123

모델 성능 낮췄으면 할인해줘야지. 풀 정밀도랑 Q2 수준을 같은 돈 내고 쓰라고? llama.cpp랑 Qwen 3.6 27B 덕분에 살맛 난다.

내가 보기엔 모델 양자화가 아니라 추론 레벨, 시스템 프롬프트, 캐시 만료 시간 같은 설정을 '최적화'한 거임.

사람들이 모델 로보토미 당했다고 할 때, 단순히 가중치 양자화가 아니라 KV 캐시를 Q4 정도로 낮춰서 모델이 정신 나가는 거 아닐까 싶음.

근데 모델이 생각을 덜 해서 결과물이 구려지면 사용자가 질문을 더 많이 하게 될 거고, 그럼 토큰 더 쓰게 되잖아. AI 기업들이 토큰 팔아서 돈 안 벌어서 다행이네!

ㄹㅇ임. 서버 과부하 걸리면 차라리 큐에 넣고 기다리게 하는 게 낫지. 쓰레기 같은 답변 빨리 받는 것보다 좀 기다려도 제대로 된 답변 받는 게 훨씬 나음.

로컬이 곧 자유다. 한 10년 뒤엔 진짜 자유로워지겠지.

하하, 그러게... 세상이 갈수록 자유로워지는 방향으로 진화했으니까 말이야.

아니, 세상은 항상 더 싼 하드웨어 쪽으로 진화해왔음.

그 더 싼 하드웨어가 지금 우리 방에 같이 있는 거임?

한론의 면도날 법칙이지. 인프라 최적화하려다 의도치 않게 벌어진 일일 듯. 그래도 해결책은 셀프 호스팅이랑 투명성 확보임. 릴리즈 노트만 제대로 썼어도 금방 해결했을 텐데.

품질 저하가 의도는 아니었을 거라는 건 동의함. 근데 투명성 없이 사용자한테 영향 주는 변경 사항을 숨긴 건 선택이었고, 품질 저하는 충분히 예상 가능한 결과였음.

거기에 사용자들 걱정할 때 가스라이팅까지 했잖아. 자기들이 한 짓을 알고도 모른 척하면서 사용자 탓으로 돌리고 끝까지 우기기까지 했지.

지금 같이 볼 만한 글

r/vibecoding

Claude로 주말 동안 뚝딱 만든 "B2B SaaS" 좀 그만 팔아라

AI로 쉽게 만든 소프트웨어는 더 이상 경쟁 우위가 없으며, 이제는 코드 외의 차별점이 필수적이라는 지적.

25562

r/OpenAI

ChatGPT가 역사상 가장 빠르게 월간 활성 사용자 10억 명을 달성한 앱이 되었습니다.

ChatGPT의 10억 MAU 달성 소식에 대해 데이터의 신뢰성과 실제 수익성 등을 두고 사용자들 간의 논쟁이 이어지고 있습니다.

52061

r/ChatGPT & r/GeminiAI

어느 쪽이 더 잘했나?

AI 모델들이 생성한 전갈 이미지들을 비교하며 각 모델의 생물학적 정확성과 디테일 묘사 능력을 평가하는 게시물입니다.

1782455

커뮤니티 전체 보기