snow · 2026.5.18 00:04 · 조회 3
XTTS-v2 소개
XTTS
개요
XTTS-v2(Extended Text-to-Speech v2)는 Coqui AI가 개발한 고품질 다국어 텍스트 음성 변환(TTS) 모델이다. 단 몇 초 분량의 참조 오디오만으로 특정 화자의 목소리를 복제하는 제로샷(zero-shot) 음성 복제 기능이 핵심이다. Coqui Studio 및 Coqui API를 구동하던 동일한 모델로, 현재는 Hugging Face와 오픈소스 TTS 라이브러리를 통해 공개되어 있다.
주요 특징
- 제로샷 음성 복제: 약 6초 분량의 참조 오디오 파일만으로 새로운 화자의 목소리를 즉시 복제할 수 있다. 여러 오디오 파일을 사용해도 런타임에 영향을 주지 않는다.
- 크로스 언어 음성 복제: 한 언어로 녹음된 화자의 목소리를 다른 지원 언어의 텍스트에도 적용할 수 있다. 화자의 정체성을 유지하면서 다국어 음성을 생성한다.
- 감정 및 스타일 전이: 참조 오디오에 담긴 감정과 말투를 복제하여 자연스러운 음성을 생성한다.
- 스트리밍 추론: 200ms 미만의 지연 시간으로 실시간 스트리밍 음성 생성을 지원한다.
- 고음질 출력: 24kHz 샘플링 레이트로 선명하고 자연스러운 음성을 출력한다.
- 파인튜닝 지원: 특정 화자나 도메인에 맞게 모델을 추가 학습(fine-tuning)할 수 있다.
- 로컬 실행: 인터넷 연결 없이 로컬 환경에서 완전히 오프라인으로 실행 가능하다.
지원 언어
XTTS-v2는 총 17개 언어를 지원한다.
| 언어 | 코드 | 언어 | 코드 |
|---|---|---|---|
| 영어 | en | 네덜란드어 | nl |
| 스페인어 | es | 체코어 | cs |
| 프랑스어 | fr | 아랍어 | ar |
| 독일어 | de | 중국어(간체) | zh-cn |
| 이탈리아어 | it | 일본어 | ja |
| 포르투갈어 | pt | 헝가리어 | hu |
| 폴란드어 | pl | 힌디어 | hi |
| 터키어 | tr | 한국어 | ko |
| 러시아어 | ru |
한국어(ko)를 포함한 아시아권 언어도 공식 지원하며, 한국어 텍스트를 다른 화자의 목소리로 자연스럽게 읽어내는 것이 가능하다.
음성 복제 기능
XTTS-v2의 음성 복제는 별도의 학습 과정 없이 즉시 사용 가능한 제로샷 방식이다.
- 최소 참조 오디오 길이: 약 6초 (짧을수록 품질 저하 가능성 있음)
- 권장 참조 오디오: 배경 소음이 없는 깨끗한 음성, WAV 형식 권장
- 복수 파일 지원: 여러 참조 오디오 파일을 함께 제공하면 화자 특성을 더 정확하게 포착 가능
- 크로스 언어: 한국어로 녹음된 목소리로 영어, 일본어 등 다른 언어 음성 생성 가능
라이선스 주의사항
XTTS-v2는 Coqui Public Model License 1.0.0 (CPML) 하에 배포된다.
- 비상업적 사용만 허용: 개인 연구, 실험, 취미 프로젝트 등 비상업적 목적으로만 무료 사용 가능하다.
- 상업적 사용 불가: 상업적 제품이나 서비스에 적용하려면 별도의 상업용 라이선스가 필요하다. 단, Coqui AI는 2024년 1월에 서비스를 종료했기 때문에 현재 공식 상업 라이선스 취득이 불가능한 상태다.
- 음성 복제 윤리: 타인의 목소리를 무단으로 복제하는 것은 법적·윤리적 문제를 야기할 수 있다. 반드시 본인 목소리 또는 명시적 동의를 받은 목소리만 사용해야 한다.
상업적 활용이 필요한 경우 Coqui Public Model License 전문을 검토한 뒤 법적 자문을 구하는 것을 권장한다.
관련 링크
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.