StyleTTS2 소개

개요

StyleTTS2는 예일대학교 연구팀(Yinghao Aaron Li 외)이 개발한 고품질 텍스트-음성 변환(TTS) 시스템으로, 논문 "StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models"에 기반한다. 이름에서 알 수 있듯이 음성 스타일(Style) 을 잠재 변수(latent variable)로 모델링하여 기준 음성 없이도 자연스러운 스타일을 생성할 수 있으며, 대규모 사전학습 음성 언어 모델을 판별자(discriminator)로 활용하는 적대적 학습(Adversarial Training) 구조를 채택한다. 코드와 사전학습 모델은 MIT 라이선스로 공개되어 있다.

스타일 전이(Style Transfer) 기술 설명

StyleTTS2의 핵심 아이디어는 음성의 스타일을 잠재 확률 변수(latent random variable) 로 취급하는 것이다. 기존 TTS 모델들이 특정 화자의 참조 음성(reference audio)을 입력으로 받아야만 스타일을 재현할 수 있었던 것과 달리, StyleTTS2는 스타일 확산(Style Diffusion) 메커니즘을 통해 참조 음성 없이도 적절한 스타일을 스스로 생성할 수 있다.

이 과정은 세 가지 기술적 축으로 이루어진다:

스타일 확산(Style Diffusion): 음성의 운율, 억양, 감정 등을 잠재 공간에서 확산(diffusion) 방식으로 샘플링하여 다양한 자연스러운 스타일을 생성한다.
적대적 학습(Adversarial Training with SLMs): WavLM 등의 대규모 음성 언어 모델(Speech Language Model)을 판별자로 활용해 생성 음성의 자연스러움을 극대화한다.
미분 가능한 지속 시간 모델링(Differentiable Duration Modeling): 텍스트-음성 정렬(alignment)을 종단간(end-to-end)으로 학습 가능하게 하여 더 자연스러운 발화 속도를 구현한다.

주요 특징

특징	설명
영어 특화	LJSpeech, LibriTTS 등 영어 데이터셋 기반 사전학습
자연스러운 억양	스타일 확산으로 인간 녹음 수준의 자연스러운 억양 구현
음성 복제(Voice Cloning)	참조 음성 파일 제공 시 해당 화자의 음성으로 합성
제로샷 화자 적응	LibriTTS 모델에서 처음 보는 화자도 복제 가능
다중화자 지원	단일 화자(LJSpeech) 및 다중 화자(LibriTTS) 모두 지원
MIT 라이선스	상업적 사용 가능 (단, 음성 복제 시 공개 지침 준수 필요)
PyPI 패키지 제공	`pip install styletts2`로 손쉽게 설치 가능

StyleTTS2는 비영어권 언어에 대한 지원도 제한적으로 가능하다. 일본어, 중국어 등 ASR 텍스트 정렬 모듈이 학습된 언어에 대해서는 전이 학습을 통해 활용할 수 있으며, HuggingFace에는 14개 언어를 지원하는 다국어 PL-BERT도 제공된다.

사전훈련 모델 종류

StyleTTS2는 두 가지 주요 사전훈련 모델을 HuggingFace를 통해 공개하고 있다.

LJSpeech 모델

단일 화자 영어 TTS 모델
LJSpeech 데이터셋(약 24시간 분량의 단일 여성 화자 낭독체 음성) 기반 학습
단일 화자 발화에서 인간 녹음 수준을 초과하는 성능 달성
참조 음성 없이 기본 음성으로 바로 합성 가능

LibriTTS 모델

다중 화자 영어 TTS 및 음성 복제 모델
LibriTTS 데이터셋(약 585시간 분량의 다양한 화자 음성) 기반 학습
참조 음성을 제공하면 해당 화자의 목소리로 제로샷 변환 가능
억양, 음높이, 말투 등 화자 특성을 포괄적으로 재현

내부적으로 활용되는 사전학습 모듈도 있다:

Text Aligner (ASR 기반): 텍스트-음성 정렬용, 영어·일본어·중국어 학습
JDC (Pitch Extractor): 음높이 추출기, 영어 학습이나 언어 독립적
PL-BERT: 텍스트 인코더, 영어 전용 (다국어 버전 별도 제공)

성능 벤치마크

StyleTTS2는 단일 화자 합성에서 기존 TTS 모델들을 크게 앞서며 인간 녹음 수준을 초과하는 성능을 달성했다. 주요 벤치마크 결과는 다음과 같다:

LJSpeech 데이터셋: 원어민 영어 청취자 평가(MOS) 기준, 인간 녹음을 초과하는 자연스러움 달성
VCTK 데이터셋 (다중 화자): 인간 녹음 수준에 필적하는 성능 달성

비교 대상 모델들(VITS, NaturalSpeech, YourTTS 등) 대비 MOS(Mean Opinion Score), SMOS(Speaker Similarity MOS), WER(Word Error Rate) 등 전 항목에서 우수한 수치를 기록했다.

라이선스 및 링크

StyleTTS2의 코드는 MIT 라이선스로 공개되어 있어 상업적 이용이 자유롭다. 단, 사전훈련된 모델을 활용한 음성 합성 결과물을 공개할 때는 윤리적 사용 지침을 준수해야 한다.

합성 음성 샘플을 공개할 때는 AI 합성 음성임을 청취자에게 명시해야 한다.
특정 화자의 음성을 복제할 경우, 해당 화자에게 명시적인 동의를 받거나 AI 생성임을 공개해야 한다.

주요 링크

GitHub: https://github.com/yl4579/StyleTTS2
HuggingFace (LJSpeech): https://huggingface.co/yl4579/StyleTTS2-LJSpeech
HuggingFace (LibriTTS): https://huggingface.co/yl4579/StyleTTS2-LibriTTS
PyPI 패키지: https://pypi.org/project/styletts2/
논문 (arXiv): https://arxiv.org/abs/2306.07691

개요

스타일 전이(Style Transfer) 기술 설명

주요 특징

사전훈련 모델 종류

성능 벤치마크

라이선스 및 링크

댓글