오픈 소스 TTS 모델

개요

텍스트 음성 변환(TTS, Text-to-Speech) 기술은 2024~2025년을 기점으로 급격히 발전했습니다. 이제는 상용 서비스에 뒤지지 않는 품질의 오픈 소스 모델들이 등장해 개발자와 연구자 누구나 자유롭게 활용할 수 있게 되었습니다. 이 문서에서는 현재 주목받는 주요 오픈 소스 TTS 모델들을 소개하고 비교합니다.

주요 오픈 소스 TTS 모델

Kokoro-82M

가장 인기 있는 경량 TTS 모델 중 하나입니다. 파라미터 수는 불과 8,200만 개지만 Hugging Face TTS Arena 리더보드 상위권을 차지할 만큼 높은 음질을 자랑합니다. 9개 언어와 860개 이상의 커뮤니티 음성 팩을 지원하며, 무료 Colab GPU에서 실시간 대비 36배 속도로 동작합니다. API 서비스 기준 백만 글자당 1달러 미만의 매우 낮은 비용을 실현했습니다.

GitHub: hexgrad/kokoro
HuggingFace: hexgrad/Kokoro-82M
라이선스: Apache 2.0

Dia (Nari Labs)

한국의 두 대학생이 설립한 스타트업 Nari Labs가 개발한 1.6B 파라미터 모델입니다. 단일 패스로 초현실적인 대화 음성을 생성하는 것이 특징이며, (laughs), (coughs), (sighs) 같은 태그로 비언어적 표현도 삽입할 수 있습니다. 제로샷 음성 복제를 지원하며 단일 GPU(NVIDIA A4000)에서 실시간으로 동작합니다. 현재 영어만 지원합니다.

GitHub: nari-labs/dia
라이선스: Apache 2.0

Chatterbox (Resemble AI)

Resemble AI가 공개한 SoTA(State-of-the-Art) 오픈 소스 TTS 모델입니다. 블라인드 테스트에서 ElevenLabs 대비 63.75%의 선호도를 기록했습니다. 감정 과장 제어(Emotion Exaggeration Control) 기능을 오픈 소스 최초로 도입했으며, 단일 파라미터로 단조로운 톤부터 극적인 감정 표현까지 조절할 수 있습니다. 23개 언어 지원 다국어 버전과 경량화된 Turbo 버전도 제공됩니다. PerTh 신경망 워터마킹이 내장되어 있어 책임감 있는 사용을 지원합니다.

GitHub: resemble-ai/chatterbox
HuggingFace: ResembleAI/chatterbox
라이선스: MIT

F5-TTS

흐름 매칭(Flow Matching)과 확산 트랜스포머(Diffusion Transformer, DiT)를 기반으로 한 완전 비자기회귀(Non-Autoregressive) TTS 시스템입니다. GPU 메모리 약 3GB만으로 동작하는 자원 효율성이 뛰어나 엣지 배포나 리소스 제약 환경에 적합합니다. 음성 품질과 제어 가능성 모두에서 고르게 높은 성능을 보여 가장 균형 잡힌 모델 중 하나로 평가받습니다.

GitHub: SWivid/F5-TTS
라이선스: MIT

Orpheus TTS (Canopy Labs)

2025년 3월 Canopy Labs가 공개한 Llama-3B 기반 TTS 모델입니다. 한국어를 포함한 다국어 모델을 제공하며, 감정과 억양을 태그로 제어할 수 있습니다. 스트리밍 지연 시간이 약 200ms로 실시간 응용에도 적합합니다. 3B, 1B, 400M, 150M 등 다양한 크기의 모델이 제공됩니다.

GitHub: canopyai/Orpheus-TTS
HuggingFace: canopylabs/orpheus-3b-0.1-ft
라이선스: Apache 2.0

XTTS-v2 (Coqui)

20개 이상의 언어를 지원하며 약 6초의 참조 오디오만으로 제로샷 음성 복제가 가능한 검증된 모델입니다. 자연스러운 억양과 감정 표현이 우수하여 프로덕션 환경에서도 많이 활용되어 왔습니다. 다만 Coqui Public Model License는 상업적 사용을 제한하므로 라이선스 확인이 필요합니다.

라이선스: Coqui Public Model License (비상업적)

Bark (Suno AI)

감정, 웃음, 숨소리 등 다양한 비언어적 표현을 포함한 창의적인 음성 생성에 강점을 가진 모델입니다. 음악 스타트업 Suno AI가 공개했으며, 표현력 있는 콘텐츠 제작에 적합합니다.

GitHub: suno-ai/bark
라이선스: MIT

StyleTTS2

음성 스타일 전이 기술을 활용한 고품질 영어 TTS 모델입니다. 자연스러운 억양과 음성 복제 기능을 제공하며 Hugging Face Spaces에서 바로 체험할 수 있습니다.

라이선스: MIT

모델 비교표

모델	파라미터 수	언어 지원	음성 복제	감정 제어	라이선스	주요 강점
Kokoro-82M	82M	9개	❌	❌	Apache 2.0	초경량·고속, 860+ 음성 팩
Dia	1.6B	영어	✅ 제로샷	✅ 비언어 태그	Apache 2.0	대화 특화, 비언어적 표현
Chatterbox	-	23개	✅ 제로샷	✅ 감정 과장	MIT	블라인드 테스트 ElevenLabs 압도
F5-TTS	-	다국어	✅	✅	MIT	3GB VRAM, 균형 잡힌 성능
Orpheus	3B/1B/400M/150M	다국어 (한국어 포함)	✅ 제로샷	✅ 태그 제어	Apache 2.0	200ms 저지연, 크기 선택 가능
XTTS-v2	-	20개+	✅ 제로샷	✅	비상업	다국어·프로덕션 검증
Bark	-	다국어	❌	✅ 자연 표현	MIT	웃음·숨소리 등 창의적 표현
StyleTTS2	-	영어	✅	✅	MIT	스타일 전이 기반 자연스러운 억양

선택 가이드

빠른 속도와 저비용이 우선: Kokoro-82M
대화·스토리텔링 특화: Dia 또는 Chatterbox
음성 복제가 필요: F5-TTS, Chatterbox, Orpheus
감정 표현이 중요: Chatterbox (감정 과장 파라미터)
한국어 포함 다국어 지원: Orpheus, Chatterbox Multilingual
리소스 제약 환경: F5-TTS (3GB VRAM), Kokoro-82M
상업적 이용 자유: Apache 2.0 또는 MIT 라이선스 모델 (Kokoro, Dia, Chatterbox, F5-TTS, Orpheus, Bark, StyleTTS2)

개요

주요 오픈 소스 TTS 모델

Kokoro-82M

Dia (Nari Labs)

Chatterbox (Resemble AI)

F5-TTS

Orpheus TTS (Canopy Labs)

XTTS-v2 (Coqui)

Bark (Suno AI)

StyleTTS2

모델 비교표

최신 트렌드

제로샷 음성 복제

감정 표현 및 비언어적 표현 제어

경량화와 엣지 배포

다국어 지원 확대

선택 가이드

댓글