오픈 소스 비디오 생성 모델

개요

비디오 생성 AI는 2024년 말부터 2025년에 걸쳐 급격한 발전을 이루었다. OpenAI의 Sora 공개 이후, 오픈 소스 커뮤니티에서도 이에 필적하는 고품질 모델들이 잇따라 등장하였다. Alibaba, Tencent, Zhipu AI, Lightricks 등 주요 기술 기업들이 모델 가중치와 학습 코드를 공개하면서, 누구나 자신의 인프라 위에서 비디오 생성 모델을 실행하고 파인튜닝할 수 있는 환경이 마련되었다.

현재 주목받는 오픈 소스 비디오 생성 모델들은 대부분 DiT(Diffusion Transformer) 아키텍처와 Flow Matching 기법을 채택하고 있으며, T2V(텍스트→비디오)와 I2V(이미지→비디오)를 모두 지원하는 방향으로 발전하고 있다. 파라미터 규모는 1B대의 경량 모델부터 13B·14B의 대형 모델까지 다양하며, 소비자용 GPU에서도 구동 가능한 최적화가 이루어지고 있다.

모델 목록

모델명	개발사	라이선스	페이지
Wan2.1	Alibaba (Qwen 팀)	Apache 2.0	바로가기
HunyuanVideo	Tencent	Apache 2.0	바로가기
CogVideoX	Zhipu AI (Tsinghua)	Apache 2.0	바로가기
LTX-Video	Lightricks	Apache 2.0	바로가기
Mochi-1	Genmo	Apache 2.0	바로가기
Open-Sora	HPC-AI Tech	Apache 2.0	바로가기

주요 모델 비교표

모델명	개발사	최대 해상도	최대 길이	라이선스	주요 특징
Wan2.1-T2V-14B	Alibaba	720p	~10초	Apache 2.0	VBench 1위(86.22%), 중·영문 자막 생성, Wan-VAE
Wan2.1-I2V-14B	Alibaba	720p	~10초	Apache 2.0	시작·끝 프레임 기반 FLF2V 파생 모델 포함
Wan2.1-1.3B	Alibaba	480p	~5초	Apache 2.0	8GB VRAM에서 구동, 소비자 GPU 최적화
HunyuanVideo	Tencent	1080p	~13초	Apache 2.0	Causal 3D VAE, 오픈 소스 최대(13B)
HunyuanVideo-I2V	Tencent	1080p	~13초	Apache 2.0	HunyuanVideo 기반 이미지→비디오
CogVideoX-5B	Zhipu AI	720p	~10초	Apache 2.0	3D VAE, LoRA 파인튜닝 지원
LTX-Video	Lightricks	768×512	60초	Apache 2.0	DiT 기반 실시간 근접 속도, 24fps
LTX-2 (19B)	Lightricks	4K (3840×2160)	20초	Apache 2.0	네이티브 4K, 50fps
Mochi-1	Genmo	480p	~10초	Apache 2.0	AsymmDiT 10B, 부드러운 모션 품질
Open-Sora 1.3	HPC-AI Tech	720p	15초	Apache 2.0	1B~11B 다양, $20만 학습 비용 공개

기술 트렌드

DiT 기반 비디오 생성

초기 비디오 생성 모델이 UNet 기반 확산 모델에 의존하던 것과 달리, 현재 주요 오픈 소스 모델들은 대부분 Diffusion Transformer(DiT) 아키텍처를 채택하고 있다. DiT는 Transformer의 강력한 시퀀스 모델링 능력을 활용하여 공간·시간 정보를 함께 처리하며, 대규모 파라미터 확장에 유리하다.

Flow Matching

기존 DDPM 방식의 노이즈 스케줄 대신, Flow Matching(정류 흐름) 기법이 빠르게 표준으로 자리잡고 있다. Flow Matching은 노이즈에서 원본 데이터로 향하는 경로를 직선화하여 샘플링 효율을 크게 높인다. Wan2.1은 선형 노이즈 궤적 Flow Matching 패러다임을 명시적으로 채택하고 있으며, Open-Sora도 1.2 버전부터 Rectified Flow를 도입하였다.

3D VAE와 시공간 압축

비디오 데이터의 방대한 용량을 처리하기 위해, Causal 3D VAE 또는 Wan-VAE 같은 3차원 변분 오토인코더가 사용된다. 이를 통해 공간(H×W)뿐 아니라 시간(T) 축도 함께 압축하여 잠재 공간(latent space) 내에서 효율적으로 처리한다.

T2V / I2V 이중 지원

텍스트→비디오(T2V)와 이미지→비디오(I2V)를 동시에 지원하는 것이 사실상 표준이 되었다. Wan2.1은 여기서 더 나아가 시작 프레임과 끝 프레임을 동시에 지정하는 FLF2V(First-Last Frame to Video) 기능도 지원한다.

긴 영상 생성

LTX-Video는 최대 60초, Open-Sora는 최대 15초의 비디오를 생성할 수 있다. 긴 영상 생성은 메모리 사용량과 시간적 일관성 유지 측면에서 기술적으로 어려우며, 슬라이딩 윈도우, 청크 단위 처리 등 다양한 기법이 연구되고 있다.

선택 가이드

용도	추천 모델	이유
소비자 GPU(8~12GB VRAM)에서 빠른 실험	Wan2.1-1.3B	8GB VRAM으로 구동 가능, Apache 2.0
최고 품질 T2V (충분한 GPU 메모리)	Wan2.1-14B / HunyuanVideo	VBench 최상위 성적, 대형 파라미터
이미지→비디오 (I2V) 품질 우선	HunyuanVideo-I2V / CogVideoX	I2V 특화, 구도·스타일 보존
빠른 생성 속도가 중요한 경우	LTX-Video	DiT 기반 실시간 근접 속도
고해상도(4K) 비디오 제작	LTX-2 (19B)	네이티브 4K 지원
연구·학습 코드까지 필요한 경우	Open-Sora	완전 공개 학습 파이프라인
LoRA 파인튜닝으로 커스텀 스타일	CogVideoX	LoRA 파인튜닝 공식 지원
부드럽고 자연스러운 모션 표현	Mochi-1	AsymmDiT 기반 고피델리티 모션

개요