AI의 황금기는 끝났다
핵심 요약
LLM들의 성능 저하와 품질 하락에 대한 불만과 그에 대한 사용자들의 다양한 의견 공유.
- 성능 저하 논란 — 주요 LLM들이 이전보다 게으르고 부정확해졌다는 사용자들의 불만 제기
- 모델 활용 전략 — Sonnet 사용 권장 및 모델 간 교차 검증을 통한 품질 보완 방법 공유
- 사용자 경험 차이 — 모델의 성능 저하를 체감하는 숙련자와 여전히 유용하게 활용하는 비개발자 간의 의견 대립
- 대안 모델 기대 — 미국 기업의 모델 통제에 반발하며 오픈 소스 및 해외 모델의 성장에 거는 기대
소비자 및 프로슈머의 LLM 접근성에 대한 황금기는 끝났다고 생각한다. 나는 Claude, ChatGPT, Gemini, Perplexity를 모두 구독 중이다. 4개 모델 모두에 동일한 채팅(텍스트 대화 분석 및 코멘트)을 실행하고 있다. 3주 전만 해도 이건 100% Claude의 영역이었고, 정말 뛰어났다. 하지만 지금은 게으르고, 실수를 저지르며, 제대로 관여하지 않는다. 이건 확실히 측정 가능한 부분이다. 예전에는 응답이 심도 있었고 내가 놓친 부분까지 파악해 냈는데, 지금은 성의 없는 문단만 돌아오고 적극적으로 회피한다(“오, 당신은 나한테 더 필요한 게 없어 보이네요”).
ChatGPT는 터무니없다. 오직 리스트와 불릿 포인트로만 대답하며, 모든 것에 대해 과하게 반응한다(“정말 놀라운 통찰력이에요, 당신은 최고예요!”).
Gemini는… 마을 바보 수준이고 이제는 50%가 환각이다.
Perplexity는 내가 찾는 종류의 통찰력을 제공하기를 거부한다.
이제 끝났다고 본다. 품질을 원한다면 엔터프라이즈 가격을 지불해야 할 것이다. 컴퓨팅 자원 문제일 수도 있지만, 어쩌면 평민들에게는 너무 과한 권력이라서 그럴지도 모른다.


