Dia 소개

개요

Dia는 한국의 스타트업 Nari Labs가 개발한 오픈소스 텍스트-투-스피치(TTS) 모델이다. 한국 대학생 2인이 창업한 Nari Labs에서 개발했으며, 2025년 공개 이후 높은 현실감과 대화 특화 음성 생성 능력으로 주목받고 있다.

Dia는 1.6B(16억) 파라미터 규모의 모델로, 일반적인 TTS와 달리 두 화자 간의 자연스러운 대화 오디오를 단일 패스(one pass)로 직접 생성할 수 있다. 웃음, 기침, 한숨 등 비언어적 표현까지 텍스트 태그로 제어할 수 있어, 기존 TTS 모델과 차별화된 표현력을 제공한다.

주요 특징

대화 특화 생성: [S1], [S2] 화자 태그를 사용하여 두 화자 간의 대화를 자연스럽게 합성한다. 단일 패스 생성 방식으로 대화의 흐름과 리듬이 일관되게 유지된다.
비언어적 표현 지원: 괄호 태그로 웃음, 기침, 한숨 등 20여 가지 비언어적 표현을 텍스트에 삽입하여 더 사실적인 음성을 만들 수 있다.
제로샷 음성 복제: 5~10초 분량의 참조 오디오만 있으면 해당 화자의 목소리를 복제하여 새로운 텍스트를 같은 목소리로 합성할 수 있다. 별도의 파인튜닝 없이 가능하다.
고속 생성: NVIDIA RTX 4090 기준 실시간의 2.1배 속도로 음성을 생성할 수 있다(PyTorch 컴파일 활성화 시).
오픈소스: Apache 2.0 라이선스로 상업적 이용이 가능하다.

비언어적 표현 태그

Dia는 다음 태그들을 텍스트 내에 삽입하여 비언어적 표현을 생성할 수 있다. 태그는 소문자 영어로 작성하며, 괄호로 감싸서 사용한다.

태그	표현
`(laughs)`	웃음
`(chuckles)`	가볍게 웃음
`(sighs)`	한숨
`(gasps)`	헉 하는 소리
`(coughs)`	기침
`(clears throat)`	목 가다듬기
`(sniffs)`	코 훌쩍이기
`(mumbles)`	중얼거림
`(groans)`	신음
`(humming)`	흥얼거림
`(singing)`	노래
`(screams)`	비명
`(claps)`	박수
`(applause)`	환호/박수
`(sneezes)`	재채기
`(burps)`	트림
`(whistles)`	휘파람
`(inhales)`	숨을 들이마심
`(exhales)`	숨을 내쉬음
`(beep)`	삐 소리

사용 예시:

[S1] 오늘 발표가 어떻게 됐어? (laughs)
[S2] 정말요? 믿을 수가 없네요. (gasps) 잘 됐으면 좋겠다!

음성 복제 기능

Dia는 제로샷 음성 복제를 지원한다. 참조 오디오 파일과 해당 오디오의 스크립트(전사 텍스트)를 함께 입력하면, 모델이 그 목소리의 특성을 학습하여 새로운 텍스트를 같은 음색으로 생성한다.

최적의 결과를 위한 권장 조건:

참조 오디오 길이: 5~10초
참조 오디오와 전사 텍스트가 정확히 일치해야 함
배경 소음이 적은 깨끗한 오디오 권장

음성 복제 시 텍스트 입력 형식:

[참조 오디오 전사 텍스트] [생성할 새 텍스트]

예를 들어, S1 화자의 목소리를 복제하려면 [S1] 태그 뒤에 참조 오디오의 전사 내용을 먼저 쓰고, 이어서 생성할 텍스트를 작성한다.

제한 사항

영어 전용: 현재 영어만 지원한다. 한국어를 포함한 다른 언어는 공식적으로 지원되지 않는다.
GPU 필요: 공식적으로는 CUDA 지원 NVIDIA GPU 환경을 요구한다. Mac(Apple Silicon)에서의 네이티브 지원은 아직 개발 중이다.
VRAM 요구: 약 4.4GB 이상의 VRAM이 필요하다(bfloat16 기준).

라이선스 및 링크

라이선스: Apache License 2.0 — 상업적 이용 가능
GitHub: https://github.com/nari-labs/dia
Hugging Face 모델: nari-labs/Dia-1.6B
온라인 데모: Hugging Face Spaces
개발사: Nari Labs (한국)

개요

주요 특징

비언어적 표현 태그

음성 복제 기능

제한 사항

라이선스 및 링크

댓글