Kokoro-82M 소개

개요

Kokoro-82M은 hexgrad가 개발한 오픈 웨이트(open-weight) 텍스트-투-스피치(TTS) 모델이다. 이름에서 알 수 있듯 8,200만(82M) 개의 파라미터만으로 구성된 경량 모델임에도 불구하고, 파라미터 수가 수십 배에 달하는 대형 모델들과 비교해도 손색없는 음성 품질을 제공한다. Apache 2.0 라이선스로 공개되어 개인 프로젝트부터 상용 환경까지 제한 없이 활용할 수 있다.

모델은 HuggingFace(hexgrad/Kokoro-82M)와 GitHub(hexgrad/kokoro)를 통해 배포되며, Python 패키지 kokoro로 간편하게 설치할 수 있다.

주요 특징

초경량 아키텍처: 82M 파라미터로 XTTS v2(467M), MetaVoice(1.2B), Fish Speech(~500M) 등 대형 모델 대비 훨씬 적은 리소스를 사용한다.
고품질 24kHz 오디오 출력: 자연스러운 억양과 발음으로 24kHz 샘플레이트의 오디오를 생성한다.
빠른 추론 속도: 경량 구조 덕분에 CPU 환경에서도 실용적인 속도로 동작하며, GPU 가속 시 더욱 빠른 응답이 가능하다.
다국어 지원: 9개 언어를 공식 지원하며, 각 언어별 음성 팩을 제공한다.
풍부한 음성 선택: v1.0 기준 54개의 공식 음성과 860개 이상의 커뮤니티 음성 팩이 제공된다.
OpenAI 호환 API: OpenAI의 음성 합성 엔드포인트와 호환되는 인터페이스를 제공해 기존 코드와 쉽게 통합할 수 있다.
완전 오픈 소스: Apache 2.0 라이선스로 가중치와 코드가 모두 공개되어 있어 파인튜닝 및 상용 배포가 자유롭다.

지원 언어 및 음성

Kokoro-82M v1.0은 총 9개 언어를 지원하며, 각 언어는 내부 코드로 구분된다.

언어 코드	언어
`a`	미국 영어 (American English)
`b`	영국 영어 (British English)
`e`	스페인어 (Spanish)
`f`	프랑스어 (French)
`h`	힌디어 (Hindi)
`i`	이탈리아어 (Italian)
`j`	일본어 (Japanese)
`p`	브라질 포르투갈어 (Brazilian Portuguese)
`z`	중국어 간체 (Mandarin Chinese)

음성 식별자는 언어코드 + f/m + 이름 형태로 구성된다. 예: af_heart(미국 영어 여성), am_puck(미국 영어 남성).

버전별 음성 지원 현황

버전	출시일	학습 데이터	지원 언어	공식 음성 수
v1.0	2025년 1월 27일	수백 시간	8개 언어	54개
v0.19	2024년 12월 25일	100시간 미만	1개 언어	10개

성능 벤치마크

Kokoro-82M(v0.19)은 TTS Spaces Arena에서 1위를 기록했다. TTS Spaces Arena는 다양한 TTS 모델의 음성 품질을 사용자 투표로 평가하는 리더보드다.

모델	파라미터 수	비고
Kokoro-82M	82M	TTS Arena 1위
XTTS v2	467M
Fish Speech	~500M
MetaVoice	1.2B

82M이라는 작은 모델 크기에도 불구하고 이보다 5~15배 큰 모델들을 Elo 점수에서 앞섰다는 점이 주목할 만하다. 전체 학습은 A100 80GB GPU 기준 약 500 GPU 시간(약 $400)으로 완료되었으며, 100시간 미만의 고품질 데이터셋만으로 최적 성능에 도달했다.

라이선스 및 링크

라이선스: Apache 2.0
GitHub: hexgrad/kokoro
HuggingFace 모델: hexgrad/Kokoro-82M
HuggingFace 데모: Kokoro-TTS Space
PyPI 패키지: kokoro

개요

주요 특징

지원 언어 및 음성

버전별 음성 지원 현황

성능 벤치마크

라이선스 및 링크

댓글