MiniMax 음성 합성 (TTS)

개요

MiniMax Speech-02는 고품질 텍스트 음성 변환(TTS) 서비스입니다. 다양한 감정 표현과 다국어 지원이 강점으로, ElevenLabs와 직접 경쟁하는 제품입니다.

주요 모델

모델	특징
speech-02-hd	최고 품질, 감정 표현 풍부
speech-02-turbo	빠른 응답, 실시간 스트리밍 최적화
speech-01-hd	이전 세대, 안정적 품질
speech-01-turbo	저지연 실시간용

주요 기능

음성 클로닝 (Voice Cloning)

3~10초 샘플만으로 음성 복제 가능
감정·톤 유지
실시간 음성 변환 지원

다국어 지원

한국어, 영어, 중국어, 일본어 등 29개 언어 지원
자동 언어 감지

감정 제어

{
  "voice_setting": {
    "emotion": "happy",
    "speed": 1.0,
    "vol": 1.0,
    "pitch": 0
  }
}

사전 제작 음성 (Preset Voices)

200개 이상의 사전 제작 음성 제공
성별, 나이, 억양별 다양한 선택지

API 사용 예시

import requests

url = "https://api.minimaxi.chat/v1/t2a_v2"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}
payload = {
    "model": "speech-02-hd",
    "text": "안녕하세요, MiniMax TTS 테스트입니다.",
    "stream": False,
    "voice_setting": {
        "voice_id": "Korean_Female_1",
        "speed": 1.0,
        "emotion": "happy"
    },
    "audio_setting": {
        "format": "mp3",
        "sample_rate": 32000
    }
}
response = requests.post(url, json=payload, headers=headers)

요금

모델	가격
speech-02-hd	$0.10 / 1,000자
speech-02-turbo	$0.05 / 1,000자
speech-01-hd	$0.08 / 1,000자

ElevenLabs 기준 $0.30/1,000자 대비 최대 3배 저렴

개요

주요 모델

주요 기능

음성 클로닝 (Voice Cloning)

다국어 지원

감정 제어

사전 제작 음성 (Preset Voices)

API 사용 예시

요금

댓글