r/LocalLLaMA•약 1개월 전•471•83

Qwen3 TTS는 저평가됨 - 로컬에서 실시간으로 돌려봤는데 지금까지 써본 오픈 TTS 중 가장 표현력이 뛰어남

핵심 요약

Qwen3 TTS를 활용해 실시간 립싱크가 가능한 로컬 페르소나 엔진을 구현하고 성능을 최적화한 사례.

실시간 스트리밍 구현 — 슬라이딩 윈도우 디코더를 활용해 일관된 억양과 피치를 유지하며 스트리밍 성능 확보.
로컬 최적화 — llama.cpp와 연동하여 C# 환경에서 효율적으로 구동되도록 모델을 양자화함.
립싱크 정밀도 — CTC 기반 단어 단위 정렬을 구현하여 입 모양과 음성이 정확히 일치하도록 개선.
음성 파인튜닝 — 기존 모델의 부족한 감정 표현과 발음을 보완하기 위해 자체 데이터셋으로 음성 모델을 직접 학습.

Qwen3 TTS는 저평가됨 - 로컬에서 실시간으로 돌려봤는데 지금까지 써본 오픈 TTS 중 가장 표현력이 뛰어남 이미지 1

여러분 안녕하세요,

약 1년 전, 저는 재미 삼아 Persona Engine이라는 사이드 프로젝트를 공개하고 글을 올린 적이 있습니다. ASR -> LLM -> TTS 파이프라인을 완전히 로컬에서 구동하면서 실시간으로 립싱크가 되는 아바타(VTuber 같은 것)를 만드는 것이 목표였죠. 결과물은 꽤 만족스러웠지만, 당시 참고용으로 사용하던 Sesame 모델 때문에 TTS 성능이 확실히 아쉬웠습니다. 그 후로 한동안 쉬었죠.

일주일이나 2주 전쯤, 프로젝트를 새로 단장해보고 싶었고 로컬 모델들이 얼마나 발전했는지 궁금했는데, Qwen3 TTS를 보고 정말 깜짝 놀랐습니다. 초기 테스트 때는 특히 Qwen 팀이 직접 공개한 버전이 많이 부족했지만, 이것저것 파고들며 실험한 끝에 다음을 구현할 수 있었습니다.

모델 스트리밍을 안정적으로 작동하게 만들었습니다. 모델 구조가 스트리밍에 완벽한데, 디코더가 슬라이딩 윈도우를 사용하기 때문에 LLM 응답을 스트리밍해도 TTS가 일관된 억양, 피치, 인토네이션을 유지할 수 있습니다.
llama.cpp와 연동했습니다. C#을 사용 중이라 속도가 중요해서 모델을 양자화하기도 했습니다.
기존 모델에는 Kokoro(이전의 기계음 같은 TTS)에 있던 단어 단위 타이밍과 음소 정보가 부족했습니다. 그래서 특정 단어가 언제 발음되는지 알 수 있도록 CTC 단어 단위 정렬을 직접 구현해야 했습니다(자막 생성 및 입 모양을 정확히 움직이기 위한 음소 추출에 필수적입니다).

이 모든 작업을 마친 후, 저만의 Qwen3-TTS 음성을 파인튜닝하기로 했습니다. 클로닝 기능은 정말 멋지지만 문맥 이해도가 부족하고 발음이 뭉개지는 문제가 있었습니다. 게다가 Qwen 팀이 제공한 커스텀 음성에는 여성 원어민이 없었고, 새로운 Live2D 모델을 만들고 싶지도 않았거든요.

결과적으로 파인튜닝 결과는 기대 이상이었고, 앞으로도 계속 개선해 나갈 생각입니다.

GitHub 주소는 여기입니다: https://github.com/fagenorn/handcrafted-persona-engine

한번 확인해보시고, 재미있게 즐겨주세요. 이걸로 어떤 미친 짓을 하실지 알려주시면 감사하겠습니다.

주요 댓글

r/localllama

Qwen3 TTS의 성능과 실시간 구현 가능성에 대해 다들 감탄하면서도, 하드웨어 사양과 대화의 자연스러움에 대해서는 현실적인 아쉬움을 표하는 분위기임.

대박! 페르소나 엔진이 [감정 이모지] 태그를 Qwen3에 바로 쏘는 거야? 속도 내려고 faster-qwen3-tts 쓰는 중?

고마워! 감정 태그는 아바타 표정용이야. 나중에 이모지를 Qwen3 TTS 지시어로 쓰면 진짜 좋을 듯. 파인튜닝 가능하긴 한데 데이터셋이 아직 부족해서... 속도는 C#으로 짠 커스텀 솔루션이야.

커스텀 Qwen3 TTS 엔진만 따로 레포 파주면 좋겠다. 진짜 관심 많음.

레포에 있는 이 폴더 확인해봐. 거의 독립적이고 문서화도 잘 돼 있어. Qwen3TtsGgufEngine.cs랑 LlamaTtsContext.cs가 핵심이야.

대화 진짜 미쳤네 ㅋㅋ 잘 만들었다! 근데 대화가 좀 더 자연스러우면 좋겠어. LLM이 여전히 짧은 문단 위주로만 답하네. 대화 흐름이나 턴제는 아직 다들 좀 부족한 듯.

고마워! 예제는 기본 Llama 3.3 썼는데, 대화 흐름 살리려면 '구어체' 대화로 파인튜닝하는 게 답이지. 작년에 Nemo 12B로 테스트했을 때 결과 쩔었거든. 이번에 페르소나 엔진으로 해보니까 훨씬 자연스럽더라.

맥에서 돌릴 방법 없을까? 아니면 맥 버전 계획 있어?

누가 시간 내서 작업해줘야 할 듯. 그래도 최대한 ONNX, llama.cpp, imGui 같은 크로스 플랫폼 라이브러리 쓰려고 노력했어. 맥은 Spout2 렌더링을 Syphon으로 바꾸는 게 제일 큰 작업일 듯.

Qwen3 TTS 써봤는데 너무 느리던데, GPU 뭐 써?

5090 쓰는데, 사실 Qwen3 TTS는 내 커스텀 설정으로 VRAM 2~3GB밖에 안 먹어. 모델 한계까지 쥐어짜는 중임 ㅋㅋ

기본 설정은 프레임당 subtalker RVQ 트랜스포머 16번 반복해야 해서 느린 거임. RVQ 트랜스포머 컴파일하면 속도 엄청 빨라져서 실시간 가능함.

-2

진짜 엄청 빠르던데.

5090이니까 그렇지! 일반적인 사양은 아니잖아. 4070S에서 돌려봤는데 빠르긴 해도 2~3초 걸리니까 몰입감 다 깨짐.

faster-qwen3-tts 써봤어? 평균 5배 이상 빨라진다던데, 그럼 좀 덜 고통스러울 거야.

와, 엔비디아랑 윈도우 필수네. 좀 아쉽다. 그래도 프로젝트는 진짜 멋짐!

지금 같이 볼 만한 글

r/ChatGPT

헐

AI에게 고양이처럼 행동하게 시키거나 엉뚱한 설정을 입력해 반응을 즐기는 유저들의 게시물입니다.

934136

r/ClaudeAI

10점 만점에 10점, 더 할 말 없음

Claude의 특정 행동 양식과 말투를 분석한 게시물에 대해 사용자들의 공감과 분석적 반응이 이어짐.

1256144

r/ClaudeCode

SFO 공항 근처에 사는데, Claude Code와 ADS-B 라디오를 사용해 머리 위로 지나가는 비행기를 프로젝션 매핑으로 구현해 봤습니다

Claude Code를 활용해 실시간 비행기 위치를 추적하고 집 천장에 프로젝션 매핑으로 구현한 프로젝트가 큰 호응을 얻고 있습니다.

2757122

커뮤니티 전체 보기