Bonsai 1비트 모델은 정말 훌륭하다

핵심 요약

Bonsai 1비트 모델이 로컬 환경에서 놀라운 성능과 낮은 메모리 점유율을 보여주며 큰 주목을 받고 있음.

성능 및 효율성 — 1비트 양자화로 메모리 사용량을 획기적으로 줄이면서도 실사용 가능한 수준의 성능을 보여줌.

기술적 제약 — 현재 전용 llama.cpp 포크가 필요하며, 학습 방식이 비공개인 점이 아쉬움.

모델 비교 — Qwen 3 기반으로 작동하며, 일부 벤치마크에서 Qwen 3.5 모델과 비교되는 등 성능 검증이 진행 중임.

커뮤니티 반응 — 로컬 LLM 사용자들 사이에서 고무적인 반응과 함께 더 큰 모델에 대한 기대감이 형성됨.

여러분 안녕하세요,

AnythingLLM의 Tim입니다. 어제 PrismML Bonsai 포스트를 보고 14배 더 작은 모델(크기 및 메모리 측면에서)이 로컬 모델의 판도를 바꿀 수 있겠다는 생각에 직접 테스트해봐야겠다고 결심했습니다. 로컬 모델은 제가 주로 다루는 분야니까요.

저는 개인적으로 Bonsai 8B 모델만 테스트해봤는데, 채팅, 문서 요약, 도구 호출, 웹 검색 등 실용적인 작업 위주로 확인했습니다. M4 Max 48GB MacBook Pro에서 실행했고, MLX 모델조차 사용하지 않았습니다. 1.7B 모델을 제 구형 Android S20에서 돌릴 수 있을지도 확인해보고 싶네요.

현재 유일한 단점은 GGUF 형식임에도 불구하고 llama.cpp에 바로 로드할 수 없다는 점입니다. 1비트 연산을 지원하기 위해 그들의 llama.cpp 포크를 사용해야 합니다.

그 포크는 llama.cpp보다 버전이 많이 뒤처져 있습니다. ggerganov가 오늘 KV rotation PR을 병합했는데, 이건 TurboQuant의 일부이지만 압축 시 KV 정확도를 높여준다고 해서 1비트 변경 사항을 포함한 업스트림 포크를 만들었습니다. (어디서든 작동한다는 보장은 없습니다 lol).

이 모델은 이전에 나왔던 MSFT BitNet 모델들과는 차원이 다르다는 걸 확실히 말씀드릴 수 있습니다. 그 모델들은 사실상 연구용이었고 사용하기 어려웠거든요.

CUDA에서 실행해보지는 않았지만, 비슷한 크기의 다른 모델(Qwen3 VL 8B Instruct Q4_K_M)과 비교했을 때 메모리 압박이 확실히 훨씬 낮다는 건 확인할 수 있었습니다. 사과와 사과를 비교하는 건 아니지만, 어느 정도인지 감을 잡으시라고 말씀드립니다.

만우절에 이런 소식이 들리는 게 이상적이진 않지만, 이건 농담이 아닙니다. 드디어 제대로 된 1비트 모델 시리즈가 나왔네요! 학습하기 쉽지 않았을 텐데 곧 다른 곳에서도 비슷한 모델이 나오길 기대합니다.

솔직히 이번 주 초 TurboQuant 때처럼 메모리나 GPU 주식이 요동칠 줄 알았는데, 실제 리소스를 덜 쓰면서도 엄청나게 잘 작동하는 모델이 나왔는데도 반응이 조용하네요.

아무튼, 다들 써보셨는지 궁금합니다. 저는 PrismML과 아무런 관련이 없고 아는 사람도 없지만, 그냥 멋진 기술이라고 생각해서 공유합니다.

Bonsai 1비트 모델은 정말 훌륭하다

핵심 요약

주요 댓글

지금 같이 볼 만한 글

나 이제 늙은 건가? 😭😭😭

지금 예언한다, 마이크로소프트가 Unsloth를 인수할 것이다.

세상에.

주요 댓글

지금 같이 볼 만한 글

나 이제 늙은 건가? 😭😭😭

지금 예언한다, 마이크로소프트가 Unsloth를 인수할 것이다.

세상에.