snow · 2026.5.10 03:11 · 조회 0
HunyuanVideo 소개
개요
HunyuanVideo는 Tencent가 2024년 12월 개발·공개한 오픈소스 대규모 비디오 생성 파운데이션 모델이다. 13B(130억) 파라미터 규모로, 텍스트-투-비디오(T2V) 생성 분야에서 당시 상용 최고 수준 모델인 Runway Gen-3, Luma 1.6과 동등하거나 그 이상의 성능을 달성한 최초의 오픈소스 모델로 평가된다.
모델 코드와 사전 학습된 가중치는 GitHub 및 HuggingFace를 통해 누구나 다운로드할 수 있으며, 연구·개인 프로젝트·상업적 활용 모두 허용(조건부)된다.
주요 특징
- 완전 오픈소스: 추론 코드와 모델 가중치 전체가 공개되어 로컬 환경에서 직접 실행 가능
- 고품질 비디오 생성: 최대 720p 해상도, 최대 129프레임(약 5초, 24fps 기준)의 비디오 생성 지원
- 텍스트 정합성: 전문 인간 평가에서 텍스트 정렬 68.5%, 모션 품질 64.5%, 시각 품질 96.4% 달성
- HuggingFace Diffusers 지원:
diffusers라이브러리에 공식 파이프라인이 포함되어 표준화된 방식으로 사용 가능 - 멀티 해상도: 540p · 720p 등 다양한 해상도 및 종횡비(16:9, 4:3, 1:1 등) 지원
기술 아키텍처
HunyuanVideo는 세 가지 핵심 컴포넌트로 구성된다.
Dual-Stream to Single-Stream DiT
기존 단일 스트림 Diffusion Transformer(DiT)와 달리, 텍스트와 시각 토큰을 초기에는 별도 스트림으로 처리한 뒤 후반부에 단일 스트림으로 융합하는 이중 스트림 → 단일 스트림 구조를 채택했다. 이를 통해 텍스트와 영상 모달리티 간의 상호작용을 강화하면서도 계산 효율을 유지한다.
MLLM 기반 텍스트 인코더
일반적인 CLIP 텍스트 인코더 대신 **멀티모달 대형 언어 모델(MLLM)**을 텍스트 인코더로 활용한다. 이는 복잡하고 긴 프롬프트의 의미를 더 정밀하게 이해하고 비디오 생성에 반영할 수 있게 한다.
3D Causal VAE
공간 축에서 16배, 시간 축에서 4배 압축을 수행하는 3D 인과 변분 오토인코더(VAE)를 탑재했다. 이 구조는 고해상도·장시간 비디오를 효율적으로 처리하면서도 시간적 일관성을 유지한다.
Flow Matching 학습 목표
전통적인 DDPM 방식 대신 Flow Matching을 학습 목표로 사용한다. 노이즈 분포와 목표 데이터 분포 사이의 속도 필드를 학습함으로써 더 안정적인 학습 동역학과 높은 품질의 출력을 달성한다.
성능 벤치마크
전문가 인간 평가(Human Evaluation) 기준:
| 항목 | HunyuanVideo | Runway Gen-3 | Luma 1.6 |
|---|---|---|---|
| 텍스트 정렬 | 68.5% | 63.2% | 60.1% |
| 모션 품질 | 64.5% | 61.8% | 59.4% |
| 시각 품질 | 96.4% | 94.1% | 93.7% |
※ 수치는 공식 기술 보고서 기준이며 평가 기준에 따라 달라질 수 있다.
파생 모델
HunyuanVideo-I2V
HunyuanVideo를 기반으로 이미지-투-비디오(I2V) 기능을 추가한 파생 모델이다. 정적 이미지와 텍스트 프롬프트를 함께 입력해 이미지에서 자연스럽게 이어지는 비디오를 생성할 수 있다. 토큰 교체(Token Replace) 기법으로 참조 이미지 정보를 비디오 생성 과정에 효과적으로 통합하며, LoRA 학습 코드도 공개되어 커스텀 특수효과 학습이 가능하다.
- GitHub: Tencent-Hunyuan/HunyuanVideo-I2V
HunyuanVideo 1.5
후속 버전으로, 더 경량화된 8.3B 파라미터 모델이다. **Selective Sliding Tile Attention(SSTA)**을 도입해 FlashAttention-3 대비 1.87배 빠른 추론 속도를 달성하고, 720p 121프레임 생성 시 최소 13.6GB VRAM으로 동작한다.
- GitHub: Tencent-Hunyuan/HunyuanVideo-1.5
HunyuanVideo_MLX
Apple Silicon Mac 전용으로 포팅된 커뮤니티 프로젝트. Metal 가속을 활용해 GPU가 없는 Mac 환경에서도 비디오 생성이 가능하다.
- GitHub: gaurav-nelson/HunyuanVideo_MLX
라이선스 및 링크
HunyuanVideo는 Tencent Hunyuan Community License Agreement에 따라 배포된다. 월간 활성 사용자 1억 명 이상의 대형 사업자는 Tencent에 별도 라이선스를 요청해야 하며, 그 외 연구·개인·상업적 사용은 허용된다.
- 공식 GitHub: Tencent-Hunyuan/HunyuanVideo
- HuggingFace 모델: tencent/HunyuanVideo
- 기술 논문: arxiv.org/abs/2412.03603
- Diffusers 문서: huggingface.co/docs/diffusers/en/api/pipelines/hunyuan_video
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.