tom · 2026.5.18 00:00 · 조회 4
오픈 소스 TTS 모델
개요
텍스트 음성 변환(TTS, Text-to-Speech) 기술은 2024~2025년을 기점으로 급격히 발전했습니다. 이제는 상용 서비스에 뒤지지 않는 품질의 오픈 소스 모델들이 등장해 개발자와 연구자 누구나 자유롭게 활용할 수 있게 되었습니다. 이 문서에서는 현재 주목받는 주요 오픈 소스 TTS 모델들을 소개하고 비교합니다.
주요 오픈 소스 TTS 모델
Kokoro-82M
가장 인기 있는 경량 TTS 모델 중 하나입니다. 파라미터 수는 불과 8,200만 개지만 Hugging Face TTS Arena 리더보드 상위권을 차지할 만큼 높은 음질을 자랑합니다. 9개 언어와 860개 이상의 커뮤니티 음성 팩을 지원하며, 무료 Colab GPU에서 실시간 대비 36배 속도로 동작합니다. API 서비스 기준 백만 글자당 1달러 미만의 매우 낮은 비용을 실현했습니다.
- GitHub: hexgrad/kokoro
- HuggingFace: hexgrad/Kokoro-82M
- 라이선스: Apache 2.0
Dia (Nari Labs)
한국의 두 대학생이 설립한 스타트업 Nari Labs가 개발한 1.6B 파라미터 모델입니다. 단일 패스로 초현실적인 대화 음성을 생성하는 것이 특징이며, (laughs), (coughs), (sighs) 같은 태그로 비언어적 표현도 삽입할 수 있습니다. 제로샷 음성 복제를 지원하며 단일 GPU(NVIDIA A4000)에서 실시간으로 동작합니다. 현재 영어만 지원합니다.
- GitHub: nari-labs/dia
- 라이선스: Apache 2.0
Chatterbox (Resemble AI)
Resemble AI가 공개한 SoTA(State-of-the-Art) 오픈 소스 TTS 모델입니다. 블라인드 테스트에서 ElevenLabs 대비 63.75%의 선호도를 기록했습니다. 감정 과장 제어(Emotion Exaggeration Control) 기능을 오픈 소스 최초로 도입했으며, 단일 파라미터로 단조로운 톤부터 극적인 감정 표현까지 조절할 수 있습니다. 23개 언어 지원 다국어 버전과 경량화된 Turbo 버전도 제공됩니다. PerTh 신경망 워터마킹이 내장되어 있어 책임감 있는 사용을 지원합니다.
- GitHub: resemble-ai/chatterbox
- HuggingFace: ResembleAI/chatterbox
- 라이선스: MIT
F5-TTS
흐름 매칭(Flow Matching)과 확산 트랜스포머(Diffusion Transformer, DiT)를 기반으로 한 완전 비자기회귀(Non-Autoregressive) TTS 시스템입니다. GPU 메모리 약 3GB만으로 동작하는 자원 효율성이 뛰어나 엣지 배포나 리소스 제약 환경에 적합합니다. 음성 품질과 제어 가능성 모두에서 고르게 높은 성능을 보여 가장 균형 잡힌 모델 중 하나로 평가받습니다.
- GitHub: SWivid/F5-TTS
- 라이선스: MIT
Orpheus TTS (Canopy Labs)
2025년 3월 Canopy Labs가 공개한 Llama-3B 기반 TTS 모델입니다. 한국어를 포함한 다국어 모델을 제공하며, 감정과 억양을 태그로 제어할 수 있습니다. 스트리밍 지연 시간이 약 200ms로 실시간 응용에도 적합합니다. 3B, 1B, 400M, 150M 등 다양한 크기의 모델이 제공됩니다.
- GitHub: canopyai/Orpheus-TTS
- HuggingFace: canopylabs/orpheus-3b-0.1-ft
- 라이선스: Apache 2.0
XTTS-v2 (Coqui)
20개 이상의 언어를 지원하며 약 6초의 참조 오디오만으로 제로샷 음성 복제가 가능한 검증된 모델입니다. 자연스러운 억양과 감정 표현이 우수하여 프로덕션 환경에서도 많이 활용되어 왔습니다. 다만 Coqui Public Model License는 상업적 사용을 제한하므로 라이선스 확인이 필요합니다.
- 라이선스: Coqui Public Model License (비상업적)
Bark (Suno AI)
감정, 웃음, 숨소리 등 다양한 비언어적 표현을 포함한 창의적인 음성 생성에 강점을 가진 모델입니다. 음악 스타트업 Suno AI가 공개했으며, 표현력 있는 콘텐츠 제작에 적합합니다.
- GitHub: suno-ai/bark
- 라이선스: MIT
StyleTTS2
음성 스타일 전이 기술을 활용한 고품질 영어 TTS 모델입니다. 자연스러운 억양과 음성 복제 기능을 제공하며 Hugging Face Spaces에서 바로 체험할 수 있습니다.
- 라이선스: MIT
모델 비교표
| 모델 | 파라미터 수 | 언어 지원 | 음성 복제 | 감정 제어 | 라이선스 | 주요 강점 |
|---|---|---|---|---|---|---|
| Kokoro-82M | 82M | 9개 | ❌ | ❌ | Apache 2.0 | 초경량·고속, 860+ 음성 팩 |
| Dia | 1.6B | 영어 | ✅ 제로샷 | ✅ 비언어 태그 | Apache 2.0 | 대화 특화, 비언어적 표현 |
| Chatterbox | - | 23개 | ✅ 제로샷 | ✅ 감정 과장 | MIT | 블라인드 테스트 ElevenLabs 압도 |
| F5-TTS | - | 다국어 | ✅ | ✅ | MIT | 3GB VRAM, 균형 잡힌 성능 |
| Orpheus | 3B/1B/400M/150M | 다국어 (한국어 포함) | ✅ 제로샷 | ✅ 태그 제어 | Apache 2.0 | 200ms 저지연, 크기 선택 가능 |
| XTTS-v2 | - | 20개+ | ✅ 제로샷 | ✅ | 비상업 | 다국어·프로덕션 검증 |
| Bark | - | 다국어 | ❌ | ✅ 자연 표현 | MIT | 웃음·숨소리 등 창의적 표현 |
| StyleTTS2 | - | 영어 | ✅ | ✅ | MIT | 스타일 전이 기반 자연스러운 억양 |
최신 트렌드
제로샷 음성 복제
현재 대부분의 최신 TTS 모델은 몇 초의 참조 음성만으로 특정 목소리를 복제하는 제로샷(Zero-Shot) 음성 복제를 지원합니다. 별도의 파인튜닝 없이 새로운 화자의 목소리를 즉각 재현할 수 있어 콘텐츠 제작, 게임, 접근성 도구 등에 활발히 활용됩니다.
감정 표현 및 비언어적 표현 제어
Chatterbox의 감정 과장 파라미터, Dia의 (laughs) 같은 태그, Orpheus의 감정 태그 등 음성에 풍부한 감정과 비언어적 표현을 삽입하는 기능이 빠르게 발전하고 있습니다. 이는 오디오북, 팟캐스트, 대화형 AI 에이전트 제작에 특히 유용합니다.
경량화와 엣지 배포
Kokoro-82M(82M 파라미터)나 Chatterbox Turbo(350M 파라미터)처럼 상대적으로 적은 리소스로도 고품질 음성을 생성하는 경량 모델들이 등장하고 있습니다. F5-TTS는 약 3GB VRAM만으로도 동작해 일반 소비자 GPU에서도 활용이 가능합니다.
다국어 지원 확대
Fish Audio S2(80개 이상 언어), Chatterbox Multilingual(23개 언어), Orpheus(한국어 포함 다국어)처럼 다국어를 지원하는 모델이 늘어나고 있습니다. 특히 한국어 지원 모델의 품질도 지속적으로 향상되고 있습니다.
선택 가이드
- 빠른 속도와 저비용이 우선: Kokoro-82M
- 대화·스토리텔링 특화: Dia 또는 Chatterbox
- 음성 복제가 필요: F5-TTS, Chatterbox, Orpheus
- 감정 표현이 중요: Chatterbox (감정 과장 파라미터)
- 한국어 포함 다국어 지원: Orpheus, Chatterbox Multilingual
- 리소스 제약 환경: F5-TTS (3GB VRAM), Kokoro-82M
- 상업적 이용 자유: Apache 2.0 또는 MIT 라이선스 모델 (Kokoro, Dia, Chatterbox, F5-TTS, Orpheus, Bark, StyleTTS2)
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.