Bark 소개

개요

Bark는 Suno AI가 개발한 오픈 소스 트랜스포머 기반 텍스트-오디오 생성 모델이다. 단순한 음성 합성(TTS)을 넘어, 자연스러운 감정 표현, 비언어적 소리, 음악, 환경음 등을 텍스트 프롬프트만으로 생성할 수 있다. MIT 라이선스로 공개되어 누구나 자유롭게 사용·수정·배포할 수 있다.

Bark는 AudioLM 및 Vall-E와 유사한 GPT 스타일 아키텍처를 따르며, EnCodec의 양자화된 오디오 표현 방식을 활용한다. 기존 TTS 시스템과 달리 텍스트를 음소(phoneme) 중간 표현 없이 직접 오디오로 변환하는 end-to-end 방식을 사용한다. 내부적으로는 세 개의 트랜스포머 모델이 순차적으로 작동하여 텍스트 토큰 → 의미 토큰 → 음향 토큰 → 오디오 파형 순으로 생성을 진행한다.

GitHub 저장소: suno-ai/bark

주요 특징

자연스러운 다국어 음성 생성: 영어, 한국어, 중국어(만다린), 독일어, 스페인어 등 12개 이상의 언어를 지원한다.
비언어적 표현 생성: 웃음, 한숨, 흐느낌, 기침 등 인간의 다양한 비언어적 소리를 텍스트 특수 토큰으로 제어할 수 있다.
음악 및 환경음: 간단한 음악적 구절이나 배경 소음을 함께 생성할 수 있다.
100개 이상의 화자 프리셋: 언어별로 다양한 목소리 스타일을 선택할 수 있는 내장 화자 프리셋을 제공한다.
무작위 목소리 생성: 프리셋 없이도 입력 텍스트에 어울리는 새로운 랜덤 목소리를 자동 생성할 수 있다.
MIT 라이선스: 상업적 이용을 포함한 자유로운 활용이 가능하다.

특수 토큰 목록과 예시

Bark는 텍스트 내에 특수 토큰을 삽입하여 음성의 감정, 소리 질감, 분위기 등을 제어한다. 특수 토큰은 [토큰명] 형식으로 텍스트 사이에 자유롭게 삽입할 수 있다.

주요 비언어적 토큰

토큰	설명
`[laughs]`	웃음 소리
`[laughter]`	웃음 (지속)
`[giggles]`	킥킥거리는 웃음
`[chuckles]`	낮은 웃음
`[sighs]`	한숨
`[sighs deeply]`	깊은 한숨
`[cries]`	우는 소리
`[sobs]`	흐느낌
`[gasps]`	숨 헐떡임
`[whispers]`	속삭임
`[coughs]`	기침
`[sneezes]`	재채기
`[yawns]`	하품
`[music]`	음악 삽입
`[upbeat music]`	경쾌한 음악
`[hums]`	콧노래
`[sings]`	노래

사용 예시

"안녕하세요! [laughs] 오늘 날씨가 정말 좋네요. [sighs] 빨리 밖에 나가고 싶어요."

"이 발표는 정말 흥미롭습니다. [music] 마지막으로 결론을 말씀드리겠습니다."

"그게... [gasps] 정말요? 믿기 어렵네요. [chuckles]"

토큰의 효과는 모델의 확률적 특성상 매번 동일하지 않을 수 있으며, 여러 번 생성하여 원하는 결과를 선택하는 것이 권장된다.

화자 프롬프트 안내

Bark는 v2/언어코드_speaker_번호 형식의 화자 프리셋을 제공한다. 화자 프리셋을 사용하면 특정 목소리 특성(성별, 톤, 억양 등)을 일관되게 유지할 수 있다.

지원 언어 코드 (예시)

언어	코드	예시 프리셋
영어	`en`	`v2/en_speaker_0` ~ `v2/en_speaker_9`
한국어	`ko`	`v2/ko_speaker_0` ~ `v2/ko_speaker_9`
중국어	`zh`	`v2/zh_speaker_0` ~ `v2/zh_speaker_9`
독일어	`de`	`v2/de_speaker_0` ~ `v2/de_speaker_9`
스페인어	`es`	`v2/es_speaker_0` ~ `v2/es_speaker_9`
일본어	`ja`	`v2/ja_speaker_0` ~ `v2/ja_speaker_9`

화자 프리셋을 지정하지 않으면 모델이 텍스트 내용에 어울리는 랜덤 목소리를 자동으로 선택한다. 전체 화자 목록은 Bark GitHub의 speaker_presets 문서에서 확인할 수 있다.

라이선스 및 링크

라이선스: MIT License
GitHub: https://github.com/suno-ai/bark
HuggingFace 모델: https://huggingface.co/suno/bark
HuggingFace Transformers 문서: https://huggingface.co/docs/transformers/model_doc/bark

개요