snow · 2026.5.18 00:04 · 조회 3
Dia 소개
Dia
개요
Dia는 한국의 스타트업 Nari Labs가 개발한 오픈소스 텍스트-투-스피치(TTS) 모델이다. 한국 대학생 2인이 창업한 Nari Labs에서 개발했으며, 2025년 공개 이후 높은 현실감과 대화 특화 음성 생성 능력으로 주목받고 있다.
Dia는 1.6B(16억) 파라미터 규모의 모델로, 일반적인 TTS와 달리 두 화자 간의 자연스러운 대화 오디오를 단일 패스(one pass)로 직접 생성할 수 있다. 웃음, 기침, 한숨 등 비언어적 표현까지 텍스트 태그로 제어할 수 있어, 기존 TTS 모델과 차별화된 표현력을 제공한다.
주요 특징
- 대화 특화 생성:
[S1],[S2]화자 태그를 사용하여 두 화자 간의 대화를 자연스럽게 합성한다. 단일 패스 생성 방식으로 대화의 흐름과 리듬이 일관되게 유지된다. - 비언어적 표현 지원: 괄호 태그로 웃음, 기침, 한숨 등 20여 가지 비언어적 표현을 텍스트에 삽입하여 더 사실적인 음성을 만들 수 있다.
- 제로샷 음성 복제: 5~10초 분량의 참조 오디오만 있으면 해당 화자의 목소리를 복제하여 새로운 텍스트를 같은 목소리로 합성할 수 있다. 별도의 파인튜닝 없이 가능하다.
- 고속 생성: NVIDIA RTX 4090 기준 실시간의 2.1배 속도로 음성을 생성할 수 있다(PyTorch 컴파일 활성화 시).
- 오픈소스: Apache 2.0 라이선스로 상업적 이용이 가능하다.
비언어적 표현 태그
Dia는 다음 태그들을 텍스트 내에 삽입하여 비언어적 표현을 생성할 수 있다. 태그는 소문자 영어로 작성하며, 괄호로 감싸서 사용한다.
| 태그 | 표현 |
|---|---|
(laughs) | 웃음 |
(chuckles) | 가볍게 웃음 |
(sighs) | 한숨 |
(gasps) | 헉 하는 소리 |
(coughs) | 기침 |
(clears throat) | 목 가다듬기 |
(sniffs) | 코 훌쩍이기 |
(mumbles) | 중얼거림 |
(groans) | 신음 |
(humming) | 흥얼거림 |
(singing) | 노래 |
(screams) | 비명 |
(claps) | 박수 |
(applause) | 환호/박수 |
(sneezes) | 재채기 |
(burps) | 트림 |
(whistles) | 휘파람 |
(inhales) | 숨을 들이마심 |
(exhales) | 숨을 내쉬음 |
(beep) | 삐 소리 |
사용 예시:
[S1] 오늘 발표가 어떻게 됐어? (laughs)
[S2] 정말요? 믿을 수가 없네요. (gasps) 잘 됐으면 좋겠다!
음성 복제 기능
Dia는 제로샷 음성 복제를 지원한다. 참조 오디오 파일과 해당 오디오의 스크립트(전사 텍스트)를 함께 입력하면, 모델이 그 목소리의 특성을 학습하여 새로운 텍스트를 같은 음색으로 생성한다.
최적의 결과를 위한 권장 조건:
- 참조 오디오 길이: 5~10초
- 참조 오디오와 전사 텍스트가 정확히 일치해야 함
- 배경 소음이 적은 깨끗한 오디오 권장
음성 복제 시 텍스트 입력 형식:
[참조 오디오 전사 텍스트] [생성할 새 텍스트]
예를 들어, S1 화자의 목소리를 복제하려면 [S1] 태그 뒤에 참조 오디오의 전사 내용을 먼저 쓰고, 이어서 생성할 텍스트를 작성한다.
제한 사항
- 영어 전용: 현재 영어만 지원한다. 한국어를 포함한 다른 언어는 공식적으로 지원되지 않는다.
- GPU 필요: 공식적으로는 CUDA 지원 NVIDIA GPU 환경을 요구한다. Mac(Apple Silicon)에서의 네이티브 지원은 아직 개발 중이다.
- VRAM 요구: 약 4.4GB 이상의 VRAM이 필요하다(
bfloat16기준).
라이선스 및 링크
- 라이선스: Apache License 2.0 — 상업적 이용 가능
- GitHub: https://github.com/nari-labs/dia
- Hugging Face 모델: nari-labs/Dia-1.6B
- 온라인 데모: Hugging Face Spaces
- 개발사: Nari Labs (한국)
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.