XTTS-v2 소개

개요

XTTS-v2(Extended Text-to-Speech v2)는 Coqui AI가 개발한 고품질 다국어 텍스트 음성 변환(TTS) 모델이다. 단 몇 초 분량의 참조 오디오만으로 특정 화자의 목소리를 복제하는 제로샷(zero-shot) 음성 복제 기능이 핵심이다. Coqui Studio 및 Coqui API를 구동하던 동일한 모델로, 현재는 Hugging Face와 오픈소스 TTS 라이브러리를 통해 공개되어 있다.

주요 특징

제로샷 음성 복제: 약 6초 분량의 참조 오디오 파일만으로 새로운 화자의 목소리를 즉시 복제할 수 있다. 여러 오디오 파일을 사용해도 런타임에 영향을 주지 않는다.
크로스 언어 음성 복제: 한 언어로 녹음된 화자의 목소리를 다른 지원 언어의 텍스트에도 적용할 수 있다. 화자의 정체성을 유지하면서 다국어 음성을 생성한다.
감정 및 스타일 전이: 참조 오디오에 담긴 감정과 말투를 복제하여 자연스러운 음성을 생성한다.
스트리밍 추론: 200ms 미만의 지연 시간으로 실시간 스트리밍 음성 생성을 지원한다.
고음질 출력: 24kHz 샘플링 레이트로 선명하고 자연스러운 음성을 출력한다.
파인튜닝 지원: 특정 화자나 도메인에 맞게 모델을 추가 학습(fine-tuning)할 수 있다.
로컬 실행: 인터넷 연결 없이 로컬 환경에서 완전히 오프라인으로 실행 가능하다.

지원 언어

XTTS-v2는 총 17개 언어를 지원한다.

언어	코드	언어	코드
영어	`en`	네덜란드어	`nl`
스페인어	`es`	체코어	`cs`
프랑스어	`fr`	아랍어	`ar`
독일어	`de`	중국어(간체)	`zh-cn`
이탈리아어	`it`	일본어	`ja`
포르투갈어	`pt`	헝가리어	`hu`
폴란드어	`pl`	힌디어	`hi`
터키어	`tr`	한국어	`ko`
러시아어	`ru`

한국어(ko)를 포함한 아시아권 언어도 공식 지원하며, 한국어 텍스트를 다른 화자의 목소리로 자연스럽게 읽어내는 것이 가능하다.

음성 복제 기능

XTTS-v2의 음성 복제는 별도의 학습 과정 없이 즉시 사용 가능한 제로샷 방식이다.

최소 참조 오디오 길이: 약 6초 (짧을수록 품질 저하 가능성 있음)
권장 참조 오디오: 배경 소음이 없는 깨끗한 음성, WAV 형식 권장
복수 파일 지원: 여러 참조 오디오 파일을 함께 제공하면 화자 특성을 더 정확하게 포착 가능
크로스 언어: 한국어로 녹음된 목소리로 영어, 일본어 등 다른 언어 음성 생성 가능

라이선스 주의사항

XTTS-v2는 Coqui Public Model License 1.0.0 (CPML) 하에 배포된다.

비상업적 사용만 허용: 개인 연구, 실험, 취미 프로젝트 등 비상업적 목적으로만 무료 사용 가능하다.
상업적 사용 불가: 상업적 제품이나 서비스에 적용하려면 별도의 상업용 라이선스가 필요하다. 단, Coqui AI는 2024년 1월에 서비스를 종료했기 때문에 현재 공식 상업 라이선스 취득이 불가능한 상태다.
음성 복제 윤리: 타인의 목소리를 무단으로 복제하는 것은 법적·윤리적 문제를 야기할 수 있다. 반드시 본인 목소리 또는 명시적 동의를 받은 목소리만 사용해야 한다.

상업적 활용이 필요한 경우 Coqui Public Model License 전문을 검토한 뒤 법적 자문을 구하는 것을 권장한다.

개요

주요 특징

지원 언어

음성 복제 기능

라이선스 주의사항

관련 링크

댓글