StyleTTS2 설치 및 사용 가이드 (Mac)

개요

이 가이드는 Apple Silicon(M1/M2/M3) Mac에서 StyleTTS2를 설치하고 사용하는 방법을 단계별로 설명한다. StyleTTS2는 공식적으로 CUDA(NVIDIA GPU) 환경을 주 타깃으로 개발되었지만, PyPI 패키지(styletts2)를 통해 Mac에서도 CPU 또는 Apple의 MPS(Metal Performance Shaders) 가속으로 실행할 수 있다. 이 가이드는 Python 3.10 + Conda 환경을 기준으로 작성되었다.

사전 요구사항

설치를 시작하기 전에 아래 항목이 준비되어 있는지 확인한다.

항목	권장 사항
macOS	12.3 Monterey 이상 (MPS 가속 사용 시 필수)
Apple Silicon	M1 / M2 / M3 및 파생 칩 (Intel Mac은 CPU 모드만 가능)
Python	3.9 또는 3.10 (ARM64 네이티브 빌드)
Conda / Miniconda	ARM64용 Miniconda3 설치 권장
Homebrew	패키지 관리자 (espeak-ng 설치에 필요)
Xcode CLI Tools	`xcode-select --install`로 설치

중요: Python은 반드시 ARM64 네이티브 빌드를 사용해야 한다. Rosetta 2를 통한 x86 에뮬레이션 환경에서는 MPS 가속이 동작하지 않는다. Miniconda를 설치할 때 Apple Silicon용 .pkg 또는 .sh 파일을 선택한다.

저장소 클론 및 의존성 설치

방법 1: PyPI 패키지 사용 (권장)

가장 간단한 방법은 styletts2 PyPI 패키지를 사용하는 것이다. 이 패키지는 MIT 라이선스 의존성만 사용하며 설치가 간편하다.

# 1. Conda 가상환경 생성 (Python 3.10 권장)
conda create -n styletts2 python=3.10
conda activate styletts2

# 2. espeak-ng 설치 (phonemizer 의존성)
brew install espeak-ng

# 3. PyTorch 설치 (MPS 지원 포함)
pip install torch torchaudio

# 4. styletts2 패키지 설치
pip install styletts2

# 5. pycrfsuite 아키텍처 호환성 문제 해결 (Mac 전용)
conda install -c conda-forge python-crfsuite

방법 2: GitHub 저장소 직접 클론

더 세밀한 제어가 필요하거나 학습/파인튜닝을 원한다면 저장소를 직접 클론한다.

# 1. 저장소 클론
git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

# 2. Conda 가상환경 생성
conda create -n styletts2 python=3.10
conda activate styletts2

# 3. espeak-ng 설치
brew install espeak-ng

# 4. PyTorch 설치 (Apple Silicon용 — CUDA 버전 설치 금지)
pip install torch torchaudio

# 5. 나머지 의존성 설치
pip install -r requirements.txt

# 6. pycrfsuite 호환성 수정
conda install -c conda-forge python-crfsuite

사전훈련 모델 다운로드

StyleTTS2의 사전훈련 모델은 HuggingFace에서 제공된다.

LJSpeech 모델 (단일 화자)

# huggingface_hub 설치
pip install huggingface_hub

# Python으로 다운로드
python - <<'EOF'
from huggingface_hub import hf_hub_download, snapshot_download

# LJSpeech 모델 전체 다운로드
snapshot_download(
    repo_id="yl4579/StyleTTS2-LJSpeech",
    local_dir="./Models/LJSpeech"
)
print("LJSpeech 모델 다운로드 완료")
EOF

LibriTTS 모델 (다중 화자 / 음성 복제용)

python - <<'EOF'
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="yl4579/StyleTTS2-LibriTTS",
    local_dir="./Models/LibriTTS"
)
print("LibriTTS 모델 다운로드 완료")
EOF

다운로드 후 각 디렉토리에 config.yml과 모델 체크포인트 파일(.pth)이 있는지 확인한다.

Apple Silicon 환경 설정

MPS 가속 확인

아래 스크립트로 MPS가 정상적으로 활성화되는지 확인한다.

import torch

print(f"PyTorch 버전: {torch.__version__}")
print(f"MPS 사용 가능: {torch.backends.mps.is_available()}")
print(f"MPS 빌드 포함: {torch.backends.mps.is_built()}")

if torch.backends.mps.is_available():
    device = torch.device("mps")
    x = torch.ones(3, device=device)
    print(f"MPS 테스트 성공: {x}")
else:
    device = torch.device("cpu")
    print("MPS 불가 — CPU 모드로 실행됩니다.")

출력이 MPS 사용 가능: True이면 GPU 가속이 적용된다. Apple Silicon Mac이지만 False로 나온다면 macOS 버전(12.3 이상 필요)과 PyTorch 버전을 확인한다.

PyPI 패키지에서 장치 설정

styletts2 패키지는 기본적으로 CUDA → CPU 순서로 장치를 자동 선택한다. Apple Silicon에서 MPS를 명시적으로 사용하려면 초기화 후 모델을 수동으로 이동시킨다.

import torch
from styletts2 import tts

# TTS 객체 초기화 (초기에는 CPU로 로드됨)
my_tts = tts.StyleTTS2()

# MPS 장치로 이동
if torch.backends.mps.is_available():
    device = torch.device("mps")
    # 내부 모델 컴포넌트를 MPS로 이동
    for key in my_tts.model:
        if hasattr(my_tts.model[key], 'to'):
            my_tts.model[key] = my_tts.model[key].to(device)
    print("모델을 MPS 장치로 이동 완료")

MPS 이동 시 일부 연산자 호환성 문제로 오류가 발생할 수 있다. 그럴 경우 CPU 모드로 실행하는 것이 안정적이다.

기본 TTS 사용법

PyPI 패키지 사용

from styletts2 import tts

# TTS 초기화 (첫 실행 시 모델 자동 다운로드)
my_tts = tts.StyleTTS2()

# 기본 음성으로 텍스트 합성
out = my_tts.inference(
    "Hello, this is a test of StyleTTS2 on Apple Silicon.",
    output_wav_file="output.wav"
)

print("음성 파일 생성 완료: output.wav")

파라미터 조정

# 세밀한 제어를 위한 파라미터 설정
out = my_tts.inference(
    text="The quick brown fox jumps over the lazy dog.",
    output_wav_file="output_tuned.wav",
    alpha=0.3,            # 음색 제어 (높을수록 텍스트에 가까움, 기본값 0.3)
    beta=0.7,             # 운율 제어 (높을수록 텍스트에 가까움, 기본값 0.7)
    diffusion_steps=5,    # 품질/속도 트레이드오프 (높을수록 느리지만 고품질)
    embedding_scale=1.0   # 감정 강도 (높을수록 더 표현적)
)

음성 복제 사용법

음성 복제는 참조 음성 파일(최소 3~10초, WAV 형식 권장)을 제공하면 해당 화자의 목소리로 텍스트를 합성한다.

from styletts2 import tts

my_tts = tts.StyleTTS2()

# 음성 복제 — 참조 음성 파일 경로를 지정
out = my_tts.inference(
    text="이 문장은 참조 화자의 목소리로 합성됩니다.",
    target_voice_path="/path/to/reference_voice.wav",  # 참조 음성 경로
    output_wav_file="cloned_output.wav",
    diffusion_steps=10,   # 복제 품질을 위해 steps 증가 권장
    alpha=0.3,
    beta=0.7,
    embedding_scale=1.0
)

print("음성 복제 완료: cloned_output.wav")

참조 음성 파일 권장 사항:

형식: WAV, 샘플레이트 24000Hz 권장
길이: 3~15초 (너무 짧으면 품질 저하)
배경 잡음이 없는 깨끗한 음성
영어 텍스트와 영어 참조 음성 사용 권장

자주 발생하는 오류 해결

오류 1: `ImportError: pycrfsuite` 아키텍처 불일치

ImportError: dlopen(...pycrfsuite...): incompatible architecture (have 'x86_64', need 'arm64e')

해결:

# conda-forge에서 ARM64 네이티브 빌드로 재설치
conda install -c conda-forge python-crfsuite

오류 2: `RuntimeError: espeak not installed`

RuntimeError: espeak not installed on your system

해결:

# espeak-ng 설치
brew install espeak-ng

# 설치 확인
espeak-ng --version

# 환경변수로 경로 지정 (필요 시)
export PHONEMIZER_ESPEAK_PATH=$(brew --prefix)/bin/espeak-ng
export PHONEMIZER_ESPEAK_LIBRARY=$(brew --prefix)/lib/libespeak-ng.dylib

오류 3: `AssertionError: Torch not compiled with CUDA enabled`

AssertionError: Torch not compiled with CUDA enabled

해결: Mac에는 CUDA가 없다. CUDA를 요구하는 PyTorch 설치 명령어(예: --index-url https://download.pytorch.org/whl/cu118)를 사용했다면 제거 후 재설치한다.

pip uninstall torch torchaudio
pip install torch torchaudio  # 기본 설치 = CPU+MPS 지원

오류 4: MPS 연산 오류 (`NotImplementedError`)

NotImplementedError: The operator 'aten::...` is not currently implemented for the MPS device.

해결: 일부 연산자가 MPS에서 미지원인 경우 CPU로 폴백한다.

# 환경변수로 MPS 미지원 연산을 CPU에서 실행
import os
os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

import torch
# 이후 코드 실행

오류 5: 고음 노이즈 / 오디오 품질 저하

구형 하드웨어나 일부 모델 설정에서 고음 노이즈가 발생할 수 있다.

diffusion_steps를 5에서 10~20으로 늘려본다.
CPU 모드로 실행해 본다.
입력 텍스트가 너무 길지 않게 분할한다.

참고 링크

GitHub 저장소: https://github.com/yl4579/StyleTTS2
PyPI 패키지 (styletts2): https://pypi.org/project/styletts2/
HuggingFace — LJSpeech 모델: https://huggingface.co/yl4579/StyleTTS2-LJSpeech
HuggingFace — LibriTTS 모델: https://huggingface.co/yl4579/StyleTTS2-LibriTTS
논문 (arXiv): https://arxiv.org/abs/2306.07691
PyTorch MPS 공식 문서: https://developer.apple.com/metal/pytorch/
Phonemizer 설치 문서: https://bootphon.github.io/phonemizer/install.html

개요