알고 보니 Gemma 4에 MTP(다중 토큰 예측) 기능이 숨겨져 있었음
핵심 요약
Gemma 4 모델에 MTP 기능이 포함되어 있었으나 구글이 호환성을 이유로 의도적으로 제거했다는 사실이 밝혀짐.
- MTP 기능 발견 — 안드로이드 앱 개발 중 LiteRT 파일에서 MTP 헤드와 가중치를 발견함.
- 구글의 의도적 제거 — 호환성과 범용성 보장을 이유로 구글이 MTP 기능을 의도적으로 삭제했다고 확인됨.
- 커뮤니티 반발 — 오픈 소스 생태계를 무시하고 구글 독자 프레임워크로 유도하는 폐쇄적인 행보에 비판이 제기됨.
- 기술적 한계 — MTP 가중치가 제거된 상태로 배포되어 커뮤니티 차원의 재구현이 매우 어려운 상황임.
여러분, 안드로이드 앱에서 LiteRT API를 통해 Gemma 4를 활용하려던 중, 제 구글 픽셀 9 테스트 기기에서 모델을 로드할 때 "mtp 가중치가 호환되지 않는 텐서 형태"라는 오류가 발생하는 것을 발견했습니다. 좀 더 파헤쳐 보니 추론 가속과 훨씬 빠른 출력을 위한 MTP 예측 헤드가 LiteRT 파일 내에 추가로 존재하더군요.
알고 보니 오늘 구글 직원으로부터 Gemma 4에 실제로 MTP가 포함되어 있었지만, "호환성과 범용성 보장"을 위해 "의도적으로 제거"되었다는 확인을 받았습니다.
솔직히 제프 딘의 트윗에서 실수로 유출되었던 Gemma 124B 모델도 받지 못한 상황에서, 그냥 전체 모델을 공개했더라면 훨씬 좋았을 겁니다. 이미 빠른 MoE 모델에서 Gemma 4의 생성 출력이 훨씬 더 빨라졌다면 정말 좋았을 텐데 말이죠. 누군가 LiteRT의 연산 그래프를 기반으로 텐서와 수학적 구조를 리버스 엔지니어링해서 추출해낼 수 있을까요?
대화 링크는 여기 있습니다:


