snow · 2026.5.18 00:06 · 조회 2
Bark 소개
개요
Bark는 Suno AI가 개발한 오픈 소스 트랜스포머 기반 텍스트-오디오 생성 모델이다. 단순한 음성 합성(TTS)을 넘어, 자연스러운 감정 표현, 비언어적 소리, 음악, 환경음 등을 텍스트 프롬프트만으로 생성할 수 있다. MIT 라이선스로 공개되어 누구나 자유롭게 사용·수정·배포할 수 있다.
Bark는 AudioLM 및 Vall-E와 유사한 GPT 스타일 아키텍처를 따르며, EnCodec의 양자화된 오디오 표현 방식을 활용한다. 기존 TTS 시스템과 달리 텍스트를 음소(phoneme) 중간 표현 없이 직접 오디오로 변환하는 end-to-end 방식을 사용한다. 내부적으로는 세 개의 트랜스포머 모델이 순차적으로 작동하여 텍스트 토큰 → 의미 토큰 → 음향 토큰 → 오디오 파형 순으로 생성을 진행한다.
GitHub 저장소: suno-ai/bark
주요 특징
- 자연스러운 다국어 음성 생성: 영어, 한국어, 중국어(만다린), 독일어, 스페인어 등 12개 이상의 언어를 지원한다.
- 비언어적 표현 생성: 웃음, 한숨, 흐느낌, 기침 등 인간의 다양한 비언어적 소리를 텍스트 특수 토큰으로 제어할 수 있다.
- 음악 및 환경음: 간단한 음악적 구절이나 배경 소음을 함께 생성할 수 있다.
- 100개 이상의 화자 프리셋: 언어별로 다양한 목소리 스타일을 선택할 수 있는 내장 화자 프리셋을 제공한다.
- 무작위 목소리 생성: 프리셋 없이도 입력 텍스트에 어울리는 새로운 랜덤 목소리를 자동 생성할 수 있다.
- MIT 라이선스: 상업적 이용을 포함한 자유로운 활용이 가능하다.
특수 토큰 목록과 예시
Bark는 텍스트 내에 특수 토큰을 삽입하여 음성의 감정, 소리 질감, 분위기 등을 제어한다. 특수 토큰은 [토큰명] 형식으로 텍스트 사이에 자유롭게 삽입할 수 있다.
주요 비언어적 토큰
| 토큰 | 설명 |
|---|---|
[laughs] | 웃음 소리 |
[laughter] | 웃음 (지속) |
[giggles] | 킥킥거리는 웃음 |
[chuckles] | 낮은 웃음 |
[sighs] | 한숨 |
[sighs deeply] | 깊은 한숨 |
[cries] | 우는 소리 |
[sobs] | 흐느낌 |
[gasps] | 숨 헐떡임 |
[whispers] | 속삭임 |
[coughs] | 기침 |
[sneezes] | 재채기 |
[yawns] | 하품 |
[music] | 음악 삽입 |
[upbeat music] | 경쾌한 음악 |
[hums] | 콧노래 |
[sings] | 노래 |
사용 예시
"안녕하세요! [laughs] 오늘 날씨가 정말 좋네요. [sighs] 빨리 밖에 나가고 싶어요."
"이 발표는 정말 흥미롭습니다. [music] 마지막으로 결론을 말씀드리겠습니다."
"그게... [gasps] 정말요? 믿기 어렵네요. [chuckles]"
토큰의 효과는 모델의 확률적 특성상 매번 동일하지 않을 수 있으며, 여러 번 생성하여 원하는 결과를 선택하는 것이 권장된다.
화자 프롬프트 안내
Bark는 v2/언어코드_speaker_번호 형식의 화자 프리셋을 제공한다. 화자 프리셋을 사용하면 특정 목소리 특성(성별, 톤, 억양 등)을 일관되게 유지할 수 있다.
지원 언어 코드 (예시)
| 언어 | 코드 | 예시 프리셋 |
|---|---|---|
| 영어 | en | v2/en_speaker_0 ~ v2/en_speaker_9 |
| 한국어 | ko | v2/ko_speaker_0 ~ v2/ko_speaker_9 |
| 중국어 | zh | v2/zh_speaker_0 ~ v2/zh_speaker_9 |
| 독일어 | de | v2/de_speaker_0 ~ v2/de_speaker_9 |
| 스페인어 | es | v2/es_speaker_0 ~ v2/es_speaker_9 |
| 일본어 | ja | v2/ja_speaker_0 ~ v2/ja_speaker_9 |
화자 프리셋을 지정하지 않으면 모델이 텍스트 내용에 어울리는 랜덤 목소리를 자동으로 선택한다. 전체 화자 목록은 Bark GitHub의 speaker_presets 문서에서 확인할 수 있다.
라이선스 및 링크
- 라이선스: MIT License
- GitHub: https://github.com/suno-ai/bark
- HuggingFace 모델: https://huggingface.co/suno/bark
- HuggingFace Transformers 문서: https://huggingface.co/docs/transformers/model_doc/bark
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.