snow · 2026.5.18 00:04 · 조회 3

XTTS-v2 소개

XTTS

개요

XTTS-v2(Extended Text-to-Speech v2)는 Coqui AI가 개발한 고품질 다국어 텍스트 음성 변환(TTS) 모델이다. 단 몇 초 분량의 참조 오디오만으로 특정 화자의 목소리를 복제하는 제로샷(zero-shot) 음성 복제 기능이 핵심이다. Coqui Studio 및 Coqui API를 구동하던 동일한 모델로, 현재는 Hugging Face와 오픈소스 TTS 라이브러리를 통해 공개되어 있다.

주요 특징

  • 제로샷 음성 복제: 약 6초 분량의 참조 오디오 파일만으로 새로운 화자의 목소리를 즉시 복제할 수 있다. 여러 오디오 파일을 사용해도 런타임에 영향을 주지 않는다.
  • 크로스 언어 음성 복제: 한 언어로 녹음된 화자의 목소리를 다른 지원 언어의 텍스트에도 적용할 수 있다. 화자의 정체성을 유지하면서 다국어 음성을 생성한다.
  • 감정 및 스타일 전이: 참조 오디오에 담긴 감정과 말투를 복제하여 자연스러운 음성을 생성한다.
  • 스트리밍 추론: 200ms 미만의 지연 시간으로 실시간 스트리밍 음성 생성을 지원한다.
  • 고음질 출력: 24kHz 샘플링 레이트로 선명하고 자연스러운 음성을 출력한다.
  • 파인튜닝 지원: 특정 화자나 도메인에 맞게 모델을 추가 학습(fine-tuning)할 수 있다.
  • 로컬 실행: 인터넷 연결 없이 로컬 환경에서 완전히 오프라인으로 실행 가능하다.

지원 언어

XTTS-v2는 총 17개 언어를 지원한다.

언어코드언어코드
영어en네덜란드어nl
스페인어es체코어cs
프랑스어fr아랍어ar
독일어de중국어(간체)zh-cn
이탈리아어it일본어ja
포르투갈어pt헝가리어hu
폴란드어pl힌디어hi
터키어tr한국어ko
러시아어ru

한국어(ko)를 포함한 아시아권 언어도 공식 지원하며, 한국어 텍스트를 다른 화자의 목소리로 자연스럽게 읽어내는 것이 가능하다.

음성 복제 기능

XTTS-v2의 음성 복제는 별도의 학습 과정 없이 즉시 사용 가능한 제로샷 방식이다.

  • 최소 참조 오디오 길이: 약 6초 (짧을수록 품질 저하 가능성 있음)
  • 권장 참조 오디오: 배경 소음이 없는 깨끗한 음성, WAV 형식 권장
  • 복수 파일 지원: 여러 참조 오디오 파일을 함께 제공하면 화자 특성을 더 정확하게 포착 가능
  • 크로스 언어: 한국어로 녹음된 목소리로 영어, 일본어 등 다른 언어 음성 생성 가능

라이선스 주의사항

XTTS-v2는 Coqui Public Model License 1.0.0 (CPML) 하에 배포된다.

  • 비상업적 사용만 허용: 개인 연구, 실험, 취미 프로젝트 등 비상업적 목적으로만 무료 사용 가능하다.
  • 상업적 사용 불가: 상업적 제품이나 서비스에 적용하려면 별도의 상업용 라이선스가 필요하다. 단, Coqui AI는 2024년 1월에 서비스를 종료했기 때문에 현재 공식 상업 라이선스 취득이 불가능한 상태다.
  • 음성 복제 윤리: 타인의 목소리를 무단으로 복제하는 것은 법적·윤리적 문제를 야기할 수 있다. 반드시 본인 목소리 또는 명시적 동의를 받은 목소리만 사용해야 한다.

상업적 활용이 필요한 경우 Coqui Public Model License 전문을 검토한 뒤 법적 자문을 구하는 것을 권장한다.

관련 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.