snow · 2026.5.18 00:04 · 조회 4

Chatterbox 소개

Chatterbox

개요

ChatterboxResemble AI가 2025년 공개한 오픈 소스 텍스트-음성 변환(TTS) 모델 패밀리다. MIT 라이선스로 배포되며, 상용 TTS 서비스에 필적하는 품질을 완전히 무료로 사용할 수 있다. 블라인드 평가에서 ElevenLabs 대비 63.75%의 선호도를 기록하며 오픈 소스 TTS의 새로운 기준을 제시했다.

GitHub: resemble-ai/chatterbox
HuggingFace: ResembleAI/chatterbox


주요 기능

제로샷 음성 복제 (Zero-Shot Voice Cloning)

5~20초 분량의 참조 음성 클립만으로 특정 화자의 목소리를 즉시 복제한다. 별도의 파인튜닝, 프롬프트 엔지니어링, 후처리 과정 없이 추론 시점에 참조 음성을 조건으로 입력하는 방식으로 동작한다.

감정 과장 제어 (Emotion Exaggeration Control)

오픈 소스 TTS 모델 최초로 감정 강도를 단일 파라미터(exaggeration)로 조절하는 기능을 탑재했다. 값의 범위는 0.0(단조로운 낭독 톤)에서 2.0(매우 극적인 표현)까지이며, 상용 모델을 포함한 그 어떤 TTS 시스템도 이처럼 단일 파라미터로 감정 강도를 세밀하게 제어하지 못한다.

PerTh 워터마킹

Chatterbox로 생성된 모든 오디오 파일에는 Resemble AI의 PerTh(Perceptual Threshold) 워터마커가 자동으로 삽입된다. 이 워터마크는:

  • 사람의 귀로 감지 불가능한 신경망 기반 워터마크
  • MP3 압축, 오디오 편집, 일반적인 변조에도 생존
  • 검출 정확도 거의 100% 달성

딥페이크 오디오 악용 방지와 AI 생성 콘텐츠 추적에 활용할 수 있다.

준언어적 태그 (Paralinguistic Tags) — Turbo 전용

Turbo 버전에서는 텍스트 내에 [cough], [laugh], [chuckle] 등 준언어적 태그를 삽입해 보다 자연스럽고 인간적인 음성을 생성할 수 있다.


설치 및 빠른 시작

설치

1pip install chatterbox-tts

또는 소스에서 직접 설치:

1git clone https://github.com/resemble-ai/chatterbox.git2cd chatterbox3pip install -e .

기본 TTS 사용 예시

1import torchaudio2from chatterbox.tts import ChatterboxTTS3 4# 모델 로드 (첫 실행 시 자동 다운로드)5model = ChatterboxTTS.from_pretrained(device="cuda")6 7# 텍스트를 음성으로 변환8text = "안녕하세요, Chatterbox TTS입니다."9wav = model.generate(text)10 11# 파일로 저장12torchaudio.save("output.wav", wav, model.sr)

제로샷 음성 복제 예시

1# 참조 음성 클립을 이용한 화자 복제2wav = model.generate(3    text="이 목소리를 복제해 말하는 예시입니다.",4    audio_prompt_path="reference_voice.wav",  # 5~20초 참조 클립5    exaggeration=0.5,   # 감정 강도 (0.0 ~ 2.0)6)7torchaudio.save("cloned_output.wav", wav, model.sr)

PerTh 워터마크 확인

1import perth2import librosa3 4audio, sr = librosa.load("output.wav", sr=None)5watermarker = perth.PerthImplicitWatermarker()6watermark = watermarker.get_watermark(audio, sample_rate=sr)7print(f"워터마크: {watermark}")  # 1.0 = 워터마크 있음, 0.0 = 없음

버전 안내

Chatterbox는 세 가지 버전으로 제공된다.

버전파라미터특징
Standard0.5B기본 버전. 제로샷 복제, 감정 제어, PerTh 워터마킹
Turbo350M실시간 대비 최대 6배 빠른 속도. 준언어적 태그 지원. 스텝 증류(1-step distillation) 적용
Multilingual23개 언어 지원 (한국어 포함)

Turbo 버전 사용 예시

1from chatterbox.tts import ChatterboxTurboTTS2 3model = ChatterboxTurboTTS.from_pretrained(device="cuda")4wav = model.generate("안녕하세요! [laugh] 정말 반갑습니다.")

Multilingual 버전 사용 예시

1from chatterbox.tts import ChatterboxMultilingualTTS2 3model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")4wav = model.generate("こんにちは、チャターボックスです。")  # 일본어 예시

지원 언어: 한국어, 영어, 일본어, 중국어, 아랍어, 덴마크어, 네덜란드어, 핀란드어, 프랑스어, 독일어, 그리스어, 히브리어, 힌디어, 이탈리아어, 말레이어, 노르웨이어, 폴란드어, 포르투갈어, 러시아어, 스페인어, 스와힐리어, 스웨덴어, 터키어 (총 23개)


벤치마크 및 성능

ElevenLabs 블라인드 테스트

Podonos 플랫폼을 통한 블라인드 평가에서 다음 조건으로 비교를 진행했다:

  • 동일한 텍스트 입력
  • 7~20초 참조 클립을 이용한 제로샷 음성 복제
  • 프롬프트 엔지니어링이나 후처리 없음

결과: 63.75%의 평가자가 Chatterbox를 선호

Turbo 버전 성능

  • GPU에서 실시간 대비 최대 6배 빠른 속도
  • 스텝 증류(10-step → 1-step) 적용으로 품질 손실 최소화
  • Standard 버전 대비 VRAM 소비량 감소

라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.