snow · 2026.5.18 09:26 · 조회 5

Kokoro-82M 소개

Kokoro

개요

Kokoro-82M은 hexgrad가 개발한 오픈 웨이트(open-weight) 텍스트-투-스피치(TTS) 모델이다. 이름에서 알 수 있듯 8,200만(82M) 개의 파라미터만으로 구성된 경량 모델임에도 불구하고, 파라미터 수가 수십 배에 달하는 대형 모델들과 비교해도 손색없는 음성 품질을 제공한다. Apache 2.0 라이선스로 공개되어 개인 프로젝트부터 상용 환경까지 제한 없이 활용할 수 있다.

모델은 HuggingFace(hexgrad/Kokoro-82M)와 GitHub(hexgrad/kokoro)를 통해 배포되며, Python 패키지 kokoro로 간편하게 설치할 수 있다.


주요 특징

  • 초경량 아키텍처: 82M 파라미터로 XTTS v2(467M), MetaVoice(1.2B), Fish Speech(~500M) 등 대형 모델 대비 훨씬 적은 리소스를 사용한다.
  • 고품질 24kHz 오디오 출력: 자연스러운 억양과 발음으로 24kHz 샘플레이트의 오디오를 생성한다.
  • 빠른 추론 속도: 경량 구조 덕분에 CPU 환경에서도 실용적인 속도로 동작하며, GPU 가속 시 더욱 빠른 응답이 가능하다.
  • 다국어 지원: 9개 언어를 공식 지원하며, 각 언어별 음성 팩을 제공한다.
  • 풍부한 음성 선택: v1.0 기준 54개의 공식 음성과 860개 이상의 커뮤니티 음성 팩이 제공된다.
  • OpenAI 호환 API: OpenAI의 음성 합성 엔드포인트와 호환되는 인터페이스를 제공해 기존 코드와 쉽게 통합할 수 있다.
  • 완전 오픈 소스: Apache 2.0 라이선스로 가중치와 코드가 모두 공개되어 있어 파인튜닝 및 상용 배포가 자유롭다.

지원 언어 및 음성

Kokoro-82M v1.0은 총 9개 언어를 지원하며, 각 언어는 내부 코드로 구분된다.

언어 코드언어
a미국 영어 (American English)
b영국 영어 (British English)
e스페인어 (Spanish)
f프랑스어 (French)
h힌디어 (Hindi)
i이탈리아어 (Italian)
j일본어 (Japanese)
p브라질 포르투갈어 (Brazilian Portuguese)
z중국어 간체 (Mandarin Chinese)

음성 식별자는 언어코드 + f/m + 이름 형태로 구성된다. 예: af_heart(미국 영어 여성), am_puck(미국 영어 남성).

버전별 음성 지원 현황

버전출시일학습 데이터지원 언어공식 음성 수
v1.02025년 1월 27일수백 시간8개 언어54개
v0.192024년 12월 25일100시간 미만1개 언어10개

성능 벤치마크

Kokoro-82M(v0.19)은 TTS Spaces Arena에서 1위를 기록했다. TTS Spaces Arena는 다양한 TTS 모델의 음성 품질을 사용자 투표로 평가하는 리더보드다.

모델파라미터 수비고
Kokoro-82M82MTTS Arena 1위
XTTS v2467M
Fish Speech~500M
MetaVoice1.2B

82M이라는 작은 모델 크기에도 불구하고 이보다 5~15배 큰 모델들을 Elo 점수에서 앞섰다는 점이 주목할 만하다. 전체 학습은 A100 80GB GPU 기준 약 500 GPU 시간(약 $400)으로 완료되었으며, 100시간 미만의 고품질 데이터셋만으로 최적 성능에 도달했다.


라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.