바이트댄스, 3B 파라미터로 거의 모든 게 가능한 오픈소스 모델 공개
핵심 요약
바이트댄스가 3B 파라미터라는 가벼운 규모로 이미지와 영상 생성, 편집, 이해까지 모두 수행하는 멀티모달 모델 'Lance'를 공개함.
- 모델 성능 — 3B 파라미터로 이미지와 영상의 생성 및 편집 등 강력한 성능 발휘함.
- 학습 방식 — 128개의 A100 GPU를 사용하여 처음부터 단계적으로 학습됨.
- 멀티모달 기능 — 이미지와 영상의 이해, 생성, 편집을 하나의 프레임워크에서 지원함.
- 하드웨어 요구사항 — 실제 파라미터는 3B지만 추론 시 40GB VRAM 이상이 필요함.
Lance는 이미지와 영상의 이해, 생성, 편집을 단일 프레임워크 내에서 지원하는 경량 네이티브 통합 멀티모달 모델입니다.
- 3B 규모의 효율성. 단 3B의 활성 파라미터만으로 이미지 생성, 이미지 편집, 영상 생성 벤치마크에서 강력한 성능을 보여줍니다.
- 처음부터 학습. Lance는 단계별 멀티태스크 레시피로 구축되었으며, 128개의 A100 GPU 예산 내에서 처음부터 완전히 학습되었습니다.


