Chatterbox 소개

개요

Chatterbox는 Resemble AI가 2025년 공개한 오픈 소스 텍스트-음성 변환(TTS) 모델 패밀리다. MIT 라이선스로 배포되며, 상용 TTS 서비스에 필적하는 품질을 완전히 무료로 사용할 수 있다. 블라인드 평가에서 ElevenLabs 대비 63.75%의 선호도를 기록하며 오픈 소스 TTS의 새로운 기준을 제시했다.

GitHub: resemble-ai/chatterbox
HuggingFace: ResembleAI/chatterbox

주요 기능

제로샷 음성 복제 (Zero-Shot Voice Cloning)

5~20초 분량의 참조 음성 클립만으로 특정 화자의 목소리를 즉시 복제한다. 별도의 파인튜닝, 프롬프트 엔지니어링, 후처리 과정 없이 추론 시점에 참조 음성을 조건으로 입력하는 방식으로 동작한다.

감정 과장 제어 (Emotion Exaggeration Control)

오픈 소스 TTS 모델 최초로 감정 강도를 단일 파라미터(exaggeration)로 조절하는 기능을 탑재했다. 값의 범위는 0.0(단조로운 낭독 톤)에서 2.0(매우 극적인 표현)까지이며, 상용 모델을 포함한 그 어떤 TTS 시스템도 이처럼 단일 파라미터로 감정 강도를 세밀하게 제어하지 못한다.

PerTh 워터마킹

Chatterbox로 생성된 모든 오디오 파일에는 Resemble AI의 PerTh(Perceptual Threshold) 워터마커가 자동으로 삽입된다. 이 워터마크는:

사람의 귀로 감지 불가능한 신경망 기반 워터마크
MP3 압축, 오디오 편집, 일반적인 변조에도 생존
검출 정확도 거의 100% 달성

딥페이크 오디오 악용 방지와 AI 생성 콘텐츠 추적에 활용할 수 있다.

준언어적 태그 (Paralinguistic Tags) — Turbo 전용

Turbo 버전에서는 텍스트 내에 [cough], [laugh], [chuckle] 등 준언어적 태그를 삽입해 보다 자연스럽고 인간적인 음성을 생성할 수 있다.

설치 및 빠른 시작

설치

pip install chatterbox-tts

또는 소스에서 직접 설치:

git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .

기본 TTS 사용 예시

import torchaudio
from chatterbox.tts import ChatterboxTTS

# 모델 로드 (첫 실행 시 자동 다운로드)
model = ChatterboxTTS.from_pretrained(device="cuda")

# 텍스트를 음성으로 변환
text = "안녕하세요, Chatterbox TTS입니다."
wav = model.generate(text)

# 파일로 저장
torchaudio.save("output.wav", wav, model.sr)

제로샷 음성 복제 예시

# 참조 음성 클립을 이용한 화자 복제
wav = model.generate(
    text="이 목소리를 복제해 말하는 예시입니다.",
    audio_prompt_path="reference_voice.wav",  # 5~20초 참조 클립
    exaggeration=0.5,   # 감정 강도 (0.0 ~ 2.0)
)
torchaudio.save("cloned_output.wav", wav, model.sr)

PerTh 워터마크 확인

import perth
import librosa

audio, sr = librosa.load("output.wav", sr=None)
watermarker = perth.PerthImplicitWatermarker()
watermark = watermarker.get_watermark(audio, sample_rate=sr)
print(f"워터마크: {watermark}")  # 1.0 = 워터마크 있음, 0.0 = 없음

버전 안내

Chatterbox는 세 가지 버전으로 제공된다.

버전	파라미터	특징
Standard	0.5B	기본 버전. 제로샷 복제, 감정 제어, PerTh 워터마킹
Turbo	350M	실시간 대비 최대 6배 빠른 속도. 준언어적 태그 지원. 스텝 증류(1-step distillation) 적용
Multilingual	—	23개 언어 지원 (한국어 포함)

Turbo 버전 사용 예시

from chatterbox.tts import ChatterboxTurboTTS

model = ChatterboxTurboTTS.from_pretrained(device="cuda")
wav = model.generate("안녕하세요! [laugh] 정말 반갑습니다.")

Multilingual 버전 사용 예시

from chatterbox.tts import ChatterboxMultilingualTTS

model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")
wav = model.generate("こんにちは、チャターボックスです。")  # 일본어 예시

지원 언어: 한국어, 영어, 일본어, 중국어, 아랍어, 덴마크어, 네덜란드어, 핀란드어, 프랑스어, 독일어, 그리스어, 히브리어, 힌디어, 이탈리아어, 말레이어, 노르웨이어, 폴란드어, 포르투갈어, 러시아어, 스페인어, 스와힐리어, 스웨덴어, 터키어 (총 23개)

벤치마크 및 성능

ElevenLabs 블라인드 테스트

Podonos 플랫폼을 통한 블라인드 평가에서 다음 조건으로 비교를 진행했다:

동일한 텍스트 입력
7~20초 참조 클립을 이용한 제로샷 음성 복제
프롬프트 엔지니어링이나 후처리 없음

결과: 63.75%의 평가자가 Chatterbox를 선호

Turbo 버전 성능

GPU에서 실시간 대비 최대 6배 빠른 속도
스텝 증류(10-step → 1-step) 적용으로 품질 손실 최소화
Standard 버전 대비 VRAM 소비량 감소

라이선스 및 링크

라이선스: MIT (상업적 이용 포함 자유 사용 가능)
GitHub: resemble-ai/chatterbox
HuggingFace (Standard): ResembleAI/chatterbox
HuggingFace (Turbo): ResembleAI/chatterbox-turbo
공식 소개 페이지: resemble.ai/chatterbox
데모 샘플: chatterbox_demopage
PyPI: chatterbox-tts

개요