snow · 2026.5.18 00:06 · 조회 2

Bark 소개

Bark

개요

Bark는 Suno AI가 개발한 오픈 소스 트랜스포머 기반 텍스트-오디오 생성 모델이다. 단순한 음성 합성(TTS)을 넘어, 자연스러운 감정 표현, 비언어적 소리, 음악, 환경음 등을 텍스트 프롬프트만으로 생성할 수 있다. MIT 라이선스로 공개되어 누구나 자유롭게 사용·수정·배포할 수 있다.

Bark는 AudioLM 및 Vall-E와 유사한 GPT 스타일 아키텍처를 따르며, EnCodec의 양자화된 오디오 표현 방식을 활용한다. 기존 TTS 시스템과 달리 텍스트를 음소(phoneme) 중간 표현 없이 직접 오디오로 변환하는 end-to-end 방식을 사용한다. 내부적으로는 세 개의 트랜스포머 모델이 순차적으로 작동하여 텍스트 토큰 → 의미 토큰 → 음향 토큰 → 오디오 파형 순으로 생성을 진행한다.

GitHub 저장소: suno-ai/bark


주요 특징

  • 자연스러운 다국어 음성 생성: 영어, 한국어, 중국어(만다린), 독일어, 스페인어 등 12개 이상의 언어를 지원한다.
  • 비언어적 표현 생성: 웃음, 한숨, 흐느낌, 기침 등 인간의 다양한 비언어적 소리를 텍스트 특수 토큰으로 제어할 수 있다.
  • 음악 및 환경음: 간단한 음악적 구절이나 배경 소음을 함께 생성할 수 있다.
  • 100개 이상의 화자 프리셋: 언어별로 다양한 목소리 스타일을 선택할 수 있는 내장 화자 프리셋을 제공한다.
  • 무작위 목소리 생성: 프리셋 없이도 입력 텍스트에 어울리는 새로운 랜덤 목소리를 자동 생성할 수 있다.
  • MIT 라이선스: 상업적 이용을 포함한 자유로운 활용이 가능하다.

특수 토큰 목록과 예시

Bark는 텍스트 내에 특수 토큰을 삽입하여 음성의 감정, 소리 질감, 분위기 등을 제어한다. 특수 토큰은 [토큰명] 형식으로 텍스트 사이에 자유롭게 삽입할 수 있다.

주요 비언어적 토큰

토큰설명
[laughs]웃음 소리
[laughter]웃음 (지속)
[giggles]킥킥거리는 웃음
[chuckles]낮은 웃음
[sighs]한숨
[sighs deeply]깊은 한숨
[cries]우는 소리
[sobs]흐느낌
[gasps]숨 헐떡임
[whispers]속삭임
[coughs]기침
[sneezes]재채기
[yawns]하품
[music]음악 삽입
[upbeat music]경쾌한 음악
[hums]콧노래
[sings]노래

사용 예시

"안녕하세요! [laughs] 오늘 날씨가 정말 좋네요. [sighs] 빨리 밖에 나가고 싶어요." "이 발표는 정말 흥미롭습니다. [music] 마지막으로 결론을 말씀드리겠습니다." "그게... [gasps] 정말요? 믿기 어렵네요. [chuckles]"

토큰의 효과는 모델의 확률적 특성상 매번 동일하지 않을 수 있으며, 여러 번 생성하여 원하는 결과를 선택하는 것이 권장된다.


화자 프롬프트 안내

Bark는 v2/언어코드_speaker_번호 형식의 화자 프리셋을 제공한다. 화자 프리셋을 사용하면 특정 목소리 특성(성별, 톤, 억양 등)을 일관되게 유지할 수 있다.

지원 언어 코드 (예시)

언어코드예시 프리셋
영어env2/en_speaker_0 ~ v2/en_speaker_9
한국어kov2/ko_speaker_0 ~ v2/ko_speaker_9
중국어zhv2/zh_speaker_0 ~ v2/zh_speaker_9
독일어dev2/de_speaker_0 ~ v2/de_speaker_9
스페인어esv2/es_speaker_0 ~ v2/es_speaker_9
일본어jav2/ja_speaker_0 ~ v2/ja_speaker_9

화자 프리셋을 지정하지 않으면 모델이 텍스트 내용에 어울리는 랜덤 목소리를 자동으로 선택한다. 전체 화자 목록은 Bark GitHub의 speaker_presets 문서에서 확인할 수 있다.


라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.