HunyuanVideo 소개

개요

HunyuanVideo는 Tencent가 2024년 12월 개발·공개한 오픈소스 대규모 비디오 생성 파운데이션 모델이다. 13B(130억) 파라미터 규모로, 텍스트-투-비디오(T2V) 생성 분야에서 당시 상용 최고 수준 모델인 Runway Gen-3, Luma 1.6과 동등하거나 그 이상의 성능을 달성한 최초의 오픈소스 모델로 평가된다.

모델 코드와 사전 학습된 가중치는 GitHub 및 HuggingFace를 통해 누구나 다운로드할 수 있으며, 연구·개인 프로젝트·상업적 활용 모두 허용(조건부)된다.

주요 특징

완전 오픈소스: 추론 코드와 모델 가중치 전체가 공개되어 로컬 환경에서 직접 실행 가능
고품질 비디오 생성: 최대 720p 해상도, 최대 129프레임(약 5초, 24fps 기준)의 비디오 생성 지원
텍스트 정합성: 전문 인간 평가에서 텍스트 정렬 68.5%, 모션 품질 64.5%, 시각 품질 96.4% 달성
HuggingFace Diffusers 지원: diffusers 라이브러리에 공식 파이프라인이 포함되어 표준화된 방식으로 사용 가능
멀티 해상도: 540p · 720p 등 다양한 해상도 및 종횡비(16:9, 4:3, 1:1 등) 지원

기술 아키텍처

HunyuanVideo는 세 가지 핵심 컴포넌트로 구성된다.

Dual-Stream to Single-Stream DiT

기존 단일 스트림 Diffusion Transformer(DiT)와 달리, 텍스트와 시각 토큰을 초기에는 별도 스트림으로 처리한 뒤 후반부에 단일 스트림으로 융합하는 이중 스트림 → 단일 스트림 구조를 채택했다. 이를 통해 텍스트와 영상 모달리티 간의 상호작용을 강화하면서도 계산 효율을 유지한다.

MLLM 기반 텍스트 인코더

일반적인 CLIP 텍스트 인코더 대신 **멀티모달 대형 언어 모델(MLLM)**을 텍스트 인코더로 활용한다. 이는 복잡하고 긴 프롬프트의 의미를 더 정밀하게 이해하고 비디오 생성에 반영할 수 있게 한다.

3D Causal VAE

공간 축에서 16배, 시간 축에서 4배 압축을 수행하는 3D 인과 변분 오토인코더(VAE)를 탑재했다. 이 구조는 고해상도·장시간 비디오를 효율적으로 처리하면서도 시간적 일관성을 유지한다.

Flow Matching 학습 목표

전통적인 DDPM 방식 대신 Flow Matching을 학습 목표로 사용한다. 노이즈 분포와 목표 데이터 분포 사이의 속도 필드를 학습함으로써 더 안정적인 학습 동역학과 높은 품질의 출력을 달성한다.

성능 벤치마크

전문가 인간 평가(Human Evaluation) 기준:

항목	HunyuanVideo	Runway Gen-3	Luma 1.6
텍스트 정렬	68.5%	63.2%	60.1%
모션 품질	64.5%	61.8%	59.4%
시각 품질	96.4%	94.1%	93.7%

※ 수치는 공식 기술 보고서 기준이며 평가 기준에 따라 달라질 수 있다.

파생 모델

HunyuanVideo-I2V

HunyuanVideo를 기반으로 이미지-투-비디오(I2V) 기능을 추가한 파생 모델이다. 정적 이미지와 텍스트 프롬프트를 함께 입력해 이미지에서 자연스럽게 이어지는 비디오를 생성할 수 있다. 토큰 교체(Token Replace) 기법으로 참조 이미지 정보를 비디오 생성 과정에 효과적으로 통합하며, LoRA 학습 코드도 공개되어 커스텀 특수효과 학습이 가능하다.

GitHub: Tencent-Hunyuan/HunyuanVideo-I2V

HunyuanVideo 1.5

후속 버전으로, 더 경량화된 8.3B 파라미터 모델이다. **Selective Sliding Tile Attention(SSTA)**을 도입해 FlashAttention-3 대비 1.87배 빠른 추론 속도를 달성하고, 720p 121프레임 생성 시 최소 13.6GB VRAM으로 동작한다.

GitHub: Tencent-Hunyuan/HunyuanVideo-1.5

HunyuanVideo_MLX

Apple Silicon Mac 전용으로 포팅된 커뮤니티 프로젝트. Metal 가속을 활용해 GPU가 없는 Mac 환경에서도 비디오 생성이 가능하다.

GitHub: gaurav-nelson/HunyuanVideo_MLX

라이선스 및 링크

HunyuanVideo는 Tencent Hunyuan Community License Agreement에 따라 배포된다. 월간 활성 사용자 1억 명 이상의 대형 사업자는 Tencent에 별도 라이선스를 요청해야 하며, 그 외 연구·개인·상업적 사용은 허용된다.

공식 GitHub: Tencent-Hunyuan/HunyuanVideo
HuggingFace 모델: tencent/HunyuanVideo
기술 논문: arxiv.org/abs/2412.03603
Diffusers 문서: huggingface.co/docs/diffusers/en/api/pipelines/hunyuan_video

개요