snow · 2026.5.18 09:26 · 조회 5
Kokoro-82M 소개
개요
Kokoro-82M은 hexgrad가 개발한 오픈 웨이트(open-weight) 텍스트-투-스피치(TTS) 모델이다. 이름에서 알 수 있듯 8,200만(82M) 개의 파라미터만으로 구성된 경량 모델임에도 불구하고, 파라미터 수가 수십 배에 달하는 대형 모델들과 비교해도 손색없는 음성 품질을 제공한다. Apache 2.0 라이선스로 공개되어 개인 프로젝트부터 상용 환경까지 제한 없이 활용할 수 있다.
모델은 HuggingFace(hexgrad/Kokoro-82M)와 GitHub(hexgrad/kokoro)를 통해 배포되며, Python 패키지 kokoro로 간편하게 설치할 수 있다.
주요 특징
- 초경량 아키텍처: 82M 파라미터로 XTTS v2(467M), MetaVoice(1.2B), Fish Speech(~500M) 등 대형 모델 대비 훨씬 적은 리소스를 사용한다.
- 고품질 24kHz 오디오 출력: 자연스러운 억양과 발음으로 24kHz 샘플레이트의 오디오를 생성한다.
- 빠른 추론 속도: 경량 구조 덕분에 CPU 환경에서도 실용적인 속도로 동작하며, GPU 가속 시 더욱 빠른 응답이 가능하다.
- 다국어 지원: 9개 언어를 공식 지원하며, 각 언어별 음성 팩을 제공한다.
- 풍부한 음성 선택: v1.0 기준 54개의 공식 음성과 860개 이상의 커뮤니티 음성 팩이 제공된다.
- OpenAI 호환 API: OpenAI의 음성 합성 엔드포인트와 호환되는 인터페이스를 제공해 기존 코드와 쉽게 통합할 수 있다.
- 완전 오픈 소스: Apache 2.0 라이선스로 가중치와 코드가 모두 공개되어 있어 파인튜닝 및 상용 배포가 자유롭다.
지원 언어 및 음성
Kokoro-82M v1.0은 총 9개 언어를 지원하며, 각 언어는 내부 코드로 구분된다.
| 언어 코드 | 언어 |
|---|---|
a | 미국 영어 (American English) |
b | 영국 영어 (British English) |
e | 스페인어 (Spanish) |
f | 프랑스어 (French) |
h | 힌디어 (Hindi) |
i | 이탈리아어 (Italian) |
j | 일본어 (Japanese) |
p | 브라질 포르투갈어 (Brazilian Portuguese) |
z | 중국어 간체 (Mandarin Chinese) |
음성 식별자는 언어코드 + f/m + 이름 형태로 구성된다. 예: af_heart(미국 영어 여성), am_puck(미국 영어 남성).
버전별 음성 지원 현황
| 버전 | 출시일 | 학습 데이터 | 지원 언어 | 공식 음성 수 |
|---|---|---|---|---|
| v1.0 | 2025년 1월 27일 | 수백 시간 | 8개 언어 | 54개 |
| v0.19 | 2024년 12월 25일 | 100시간 미만 | 1개 언어 | 10개 |
성능 벤치마크
Kokoro-82M(v0.19)은 TTS Spaces Arena에서 1위를 기록했다. TTS Spaces Arena는 다양한 TTS 모델의 음성 품질을 사용자 투표로 평가하는 리더보드다.
| 모델 | 파라미터 수 | 비고 |
|---|---|---|
| Kokoro-82M | 82M | TTS Arena 1위 |
| XTTS v2 | 467M | |
| Fish Speech | ~500M | |
| MetaVoice | 1.2B |
82M이라는 작은 모델 크기에도 불구하고 이보다 5~15배 큰 모델들을 Elo 점수에서 앞섰다는 점이 주목할 만하다. 전체 학습은 A100 80GB GPU 기준 약 500 GPU 시간(약 $400)으로 완료되었으며, 100시간 미만의 고품질 데이터셋만으로 최적 성능에 도달했다.
라이선스 및 링크
- 라이선스: Apache 2.0
- GitHub: hexgrad/kokoro
- HuggingFace 모델: hexgrad/Kokoro-82M
- HuggingFace 데모: Kokoro-TTS Space
- PyPI 패키지: kokoro
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.