snow · 2026.5.18 00:04 · 조회 3

Dia 소개

Dia

개요

Dia는 한국의 스타트업 Nari Labs가 개발한 오픈소스 텍스트-투-스피치(TTS) 모델이다. 한국 대학생 2인이 창업한 Nari Labs에서 개발했으며, 2025년 공개 이후 높은 현실감과 대화 특화 음성 생성 능력으로 주목받고 있다.

Dia는 1.6B(16억) 파라미터 규모의 모델로, 일반적인 TTS와 달리 두 화자 간의 자연스러운 대화 오디오를 단일 패스(one pass)로 직접 생성할 수 있다. 웃음, 기침, 한숨 등 비언어적 표현까지 텍스트 태그로 제어할 수 있어, 기존 TTS 모델과 차별화된 표현력을 제공한다.

주요 특징

  • 대화 특화 생성: [S1], [S2] 화자 태그를 사용하여 두 화자 간의 대화를 자연스럽게 합성한다. 단일 패스 생성 방식으로 대화의 흐름과 리듬이 일관되게 유지된다.
  • 비언어적 표현 지원: 괄호 태그로 웃음, 기침, 한숨 등 20여 가지 비언어적 표현을 텍스트에 삽입하여 더 사실적인 음성을 만들 수 있다.
  • 제로샷 음성 복제: 5~10초 분량의 참조 오디오만 있으면 해당 화자의 목소리를 복제하여 새로운 텍스트를 같은 목소리로 합성할 수 있다. 별도의 파인튜닝 없이 가능하다.
  • 고속 생성: NVIDIA RTX 4090 기준 실시간의 2.1배 속도로 음성을 생성할 수 있다(PyTorch 컴파일 활성화 시).
  • 오픈소스: Apache 2.0 라이선스로 상업적 이용이 가능하다.

비언어적 표현 태그

Dia는 다음 태그들을 텍스트 내에 삽입하여 비언어적 표현을 생성할 수 있다. 태그는 소문자 영어로 작성하며, 괄호로 감싸서 사용한다.

태그표현
(laughs)웃음
(chuckles)가볍게 웃음
(sighs)한숨
(gasps)헉 하는 소리
(coughs)기침
(clears throat)목 가다듬기
(sniffs)코 훌쩍이기
(mumbles)중얼거림
(groans)신음
(humming)흥얼거림
(singing)노래
(screams)비명
(claps)박수
(applause)환호/박수
(sneezes)재채기
(burps)트림
(whistles)휘파람
(inhales)숨을 들이마심
(exhales)숨을 내쉬음
(beep)삐 소리

사용 예시:

[S1] 오늘 발표가 어떻게 됐어? (laughs) [S2] 정말요? 믿을 수가 없네요. (gasps) 잘 됐으면 좋겠다!

음성 복제 기능

Dia는 제로샷 음성 복제를 지원한다. 참조 오디오 파일과 해당 오디오의 스크립트(전사 텍스트)를 함께 입력하면, 모델이 그 목소리의 특성을 학습하여 새로운 텍스트를 같은 음색으로 생성한다.

최적의 결과를 위한 권장 조건:

  • 참조 오디오 길이: 5~10초
  • 참조 오디오와 전사 텍스트가 정확히 일치해야 함
  • 배경 소음이 적은 깨끗한 오디오 권장

음성 복제 시 텍스트 입력 형식:

[참조 오디오 전사 텍스트] [생성할 새 텍스트]

예를 들어, S1 화자의 목소리를 복제하려면 [S1] 태그 뒤에 참조 오디오의 전사 내용을 먼저 쓰고, 이어서 생성할 텍스트를 작성한다.

제한 사항

  • 영어 전용: 현재 영어만 지원한다. 한국어를 포함한 다른 언어는 공식적으로 지원되지 않는다.
  • GPU 필요: 공식적으로는 CUDA 지원 NVIDIA GPU 환경을 요구한다. Mac(Apple Silicon)에서의 네이티브 지원은 아직 개발 중이다.
  • VRAM 요구: 약 4.4GB 이상의 VRAM이 필요하다(bfloat16 기준).

라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.