snow · 2026.5.18 00:04 · 조회 2

F5-TTS 소개

F5

개요

F5-TTS(Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching)는 2024년 10월 공개된 최신 텍스트-음성 변환(TTS) 모델이다. 흐름 매칭(Flow Matching)과 확산 트랜스포머(Diffusion Transformer, DiT)를 결합한 완전 비자기회귀(Fully Non-Autoregressive) 구조로 설계되어, 기존 TTS 시스템 대비 빠른 추론 속도와 높은 음성 품질을 동시에 달성한다. MIT 라이선스로 공개되어 연구 및 상업적 활용이 모두 가능하다.

기술적 특징

흐름 매칭 (Flow Matching)

흐름 매칭은 확산 모델(Diffusion Model)의 일종으로, 노이즈에서 목표 데이터 분포로 향하는 연속 정규화 흐름을 학습한다. 기존 확산 모델보다 더 직선적인 경로를 통해 샘플을 생성하므로, 적은 함수 평가 횟수(NFE)로도 고품질 음성을 생성할 수 있다. F5-TTS는 추론 시 32 NFE 기준으로 단어 오류율(WER) 2.42%를 기록하며, 실시간 계산 비율(RTF) 0.15를 달성한다.

확산 트랜스포머 (DiT)와 ConvNeXt V2

F5-TTS는 DiT(Diffusion Transformer) 아키텍처에 ConvNeXt V2 블록을 결합한다. ConvNeXt V2는 텍스트 표현을 정제하여 음성과의 정렬을 용이하게 만드는 역할을 한다. 이를 통해 훈련 속도와 추론 속도를 모두 개선하였다.

Sway Sampling 전략

추론 시 적용되는 Sway Sampling은 샘플링 경로를 동적으로 조정하는 기법으로, 모델의 성능과 효율성을 동시에 향상시킨다. 이 전략은 적은 NFE에서도 안정적인 음성 품질을 보장한다.

비자기회귀 (Non-Autoregressive) 구조

기존 자기회귀 TTS 모델은 토큰을 순차적으로 생성하여 속도 병목이 발생한다. F5-TTS는 텍스트 입력을 입력 음성과 동일한 길이로 패딩한 후 전체 시퀀스에 대해 병렬로 디노이징을 수행한다. 이로 인해 듀레이션 예측기, 음소 정렬, 별도의 텍스트 인코더가 필요 없어 파이프라인이 대폭 단순화된다.

주요 기능

  • 제로샷 음성 복제: 3~10초 분량의 참조 오디오만으로 특정 화자의 목소리를 복제하여 새로운 텍스트를 음성으로 생성한다.
  • 다국어 지원: 100,000시간 규모의 다국어 공개 데이터셋으로 학습되어 영어를 비롯한 다양한 언어를 지원한다.
  • 코드 스위칭: 단일 발화 내에서 여러 언어를 자연스럽게 전환하는 코드 스위칭 기능을 지원한다.
  • 속도 제어: 음성 생성 속도를 사용자가 조절할 수 있다.
  • 다중 화자 생성: 한 세션에서 여러 화자의 음성을 생성하는 멀티 스피커 모드를 지원한다.
  • 웹 UI (Gradio): 별도 코딩 없이 브라우저에서 바로 사용할 수 있는 Gradio 기반 웹 인터페이스를 제공한다.

성능 및 벤치마크

단일 L20 GPU 환경에서 26개의 다양한 프롬프트-텍스트 쌍 기준 측정 결과:

항목
단어 오류율 (WER, LibriSpeech-PC test-clean)2.42%
실시간 계산 비율 (RTF)0.15
기준 추론 지연시간 (F5-TTS Base)253ms
비교 모델 (E2 TTS) WER2.95%

F5-TTS는 비교 대상인 E2 TTS 대비 영어 및 다국어 데이터셋 전반에서 일관되게 낮은 WER을 기록한다. 또한 약 3GB의 VRAM으로도 동작하여 소비자용 GPU 및 Apple Silicon 환경에서도 활용 가능한 리소스 효율성을 갖추고 있다.

라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.