4개의 AI 모델에게 힌트 없이 칸딘스키 스타일의 추상적인 포켓몬 아트를 보여줬는데, 결과가 진짜 미쳤음

핵심 요약

4개의 AI 모델에게 추상적인 포켓몬 아트를 보여주고 인식 능력을 테스트했으나, Gemini 3.1 Pro가 엉뚱한 답변을 내놓으며 처참한 성능을 보임.

모델 성능 비교 — 4개의 AI 모델을 대상으로 추상화된 포켓몬 이미지 인식 능력을 테스트함.
Gemini의 환각 — Gemini 3.1 Pro가 포켓몬을 세일러문이나 다른 캐릭터로 오인하는 심각한 환각 증상을 보임.
프롬프트 영향 — 힌트 제공 여부나 설정에 따라 모델별 인식 결과가 크게 달라짐.
커뮤니티 반응 — 사용자마다 Gemini의 성능에 대해 엇갈린 경험을 공유하며 논쟁함.

"8th Project"라는 아티스트가 인스타그램에 포켓몬을 순수 기하학적 추상화로 그린 걸 발견함. 내가 접근 가능한 모든 AI에 던져주고 "엘리트 볼 패턴 인식 필요"라고 물어보기로 함.

Opus 4.7(생각하기 기능 없음)은 4개 다 즉시 맞춤.

GPT-5.5(생각하기 기능 없음)는 3개 맞춤.

Claude Sonnet 4.6(확장된 생각하기 기능)은 2개 맞춤.

Gemini 3.1 Pro(높은 생각하기 기능)는 4분 30초 동안 생각하고, 검색을 사용하더니 전부 세일러문 캐릭터라고 결론 내림.

Gemini의 생각하기 과정은 진짜 개판임. 징징이도 고려하고, 알라딘도 고려함. "만족한다"라고 쓰고는 20개 넘는 후보를 계속 나열함. 한 번도 제대로 된 프랜차이즈를 못 맞춤.

포켓몬이라고 알려줬을 때도 Gemini는 temperature 0에서 1개밖에 못 맞췄고, 기본 설정으로도 시도해 봤음.

Gemini가 가장 멀티모달할 줄 알았는데.

주요 댓글

r/geminiai

Gemini의 이미지 인식 성능에 대한 회의적인 반응과 함께, 검색 기능 의존도나 모델 버전별 차이에 대한 사용자들의 다양한 경험담이 공유되고 있음.

Gemini Pro 3.1 써봤는데 20초 생각하고 4개 다 맞힘 ;)

재밌는 사실: 같은 프롬프트랑 이미지로 돌릴 때마다 결과가 다르게 나옴

아마 temperature 1.0이라서 그런 듯

AI가 검색 기능 쓰면 별로 증명되는 게 없음. 예를 들어 SuperGrok은 맞혔는데, 어떻게 했는지 봐봐 [이미지]

지금까지 본 것 중 제일 맘에 듦

맞음, 요즘 트렌드의 '문제'지. 모델이 똑똑해진 게 아니라 그냥 인터넷에서 맥락을 긁어오는 거임

나도 Gemini 3개 모드 다 해봄. 네 프롬프트가 무슨 의도인지 몰라서 그냥 '이미지에 있는 4가지가 뭔지 식별해줘'라고 물어봄. Fast랑 Thinking은 FF7이라고 추측했고, Pro는 앞 3개는 맞혔는데 오른쪽 아래는 라프라스(아니면 다른 물 포켓몬)라고 하더라.

라프라스면 나쁘지 않은 추측인데, 색감이 거의 똑같으니까

AI Studio에서 돌린 Gemini 3.0 Flash는 다 맞혔는데, 앱 버전은 완전히 딴소리함. 둘 다 똑같은 지시사항이었는데. [이미지]