Bonsai 1비트 모델은 정말 훌륭하다
핵심 요약
Bonsai 1비트 모델이 로컬 환경에서 놀라운 성능과 낮은 메모리 점유율을 보여주며 큰 주목을 받고 있음.
- 성능 및 효율성 — 1비트 양자화로 메모리 사용량을 획기적으로 줄이면서도 실사용 가능한 수준의 성능을 보여줌.
- 기술적 제약 — 현재 전용 llama.cpp 포크가 필요하며, 학습 방식이 비공개인 점이 아쉬움.
- 모델 비교 — Qwen 3 기반으로 작동하며, 일부 벤치마크에서 Qwen 3.5 모델과 비교되는 등 성능 검증이 진행 중임.
- 커뮤니티 반응 — 로컬 LLM 사용자들 사이에서 고무적인 반응과 함께 더 큰 모델에 대한 기대감이 형성됨.
여러분 안녕하세요,
AnythingLLM의 Tim입니다. 어제 PrismML Bonsai 포스트를 보고 14배 더 작은 모델(크기 및 메모리 측면에서)이 로컬 모델의 판도를 바꿀 수 있겠다는 생각에 직접 테스트해봐야겠다고 결심했습니다. 로컬 모델은 제가 주로 다루는 분야니까요.
저는 개인적으로 Bonsai 8B 모델만 테스트해봤는데, 채팅, 문서 요약, 도구 호출, 웹 검색 등 실용적인 작업 위주로 확인했습니다. M4 Max 48GB MacBook Pro에서 실행했고, MLX 모델조차 사용하지 않았습니다. 1.7B 모델을 제 구형 Android S20에서 돌릴 수 있을지도 확인해보고 싶네요.
현재 유일한 단점은 GGUF 형식임에도 불구하고 llama.cpp에 바로 로드할 수 없다는 점입니다. 1비트 연산을 지원하기 위해 그들의 llama.cpp 포크를 사용해야 합니다.
그 포크는 llama.cpp보다 버전이 많이 뒤처져 있습니다. ggerganov가 오늘 KV rotation PR을 병합했는데, 이건 TurboQuant의 일부이지만 압축 시 KV 정확도를 높여준다고 해서 1비트 변경 사항을 포함한 업스트림 포크를 만들었습니다. (어디서든 작동한다는 보장은 없습니다 lol).
이 모델은 이전에 나왔던 MSFT BitNet 모델들과는 차원이 다르다는 걸 확실히 말씀드릴 수 있습니다. 그 모델들은 사실상 연구용이었고 사용하기 어려웠거든요.
CUDA에서 실행해보지는 않았지만, 비슷한 크기의 다른 모델(Qwen3 VL 8B Instruct Q4_K_M)과 비교했을 때 메모리 압박이 확실히 훨씬 낮다는 건 확인할 수 있었습니다. 사과와 사과를 비교하는 건 아니지만, 어느 정도인지 감을 잡으시라고 말씀드립니다.
만우절에 이런 소식이 들리는 게 이상적이진 않지만, 이건 농담이 아닙니다. 드디어 제대로 된 1비트 모델 시리즈가 나왔네요! 학습하기 쉽지 않았을 텐데 곧 다른 곳에서도 비슷한 모델이 나오길 기대합니다.
솔직히 이번 주 초 TurboQuant 때처럼 메모리나 GPU 주식이 요동칠 줄 알았는데, 실제 리소스를 덜 쓰면서도 엄청나게 잘 작동하는 모델이 나왔는데도 반응이 조용하네요.
아무튼, 다들 써보셨는지 궁금합니다. 저는 PrismML과 아무런 관련이 없고 아는 사람도 없지만, 그냥 멋진 기술이라고 생각해서 공유합니다.


