snow · 2026.5.18 00:02 · 조회 3

오픈 소스 비디오 생성 모델

개요

비디오 생성 AI는 2024년 말부터 2025년에 걸쳐 급격한 발전을 이루었다. OpenAI의 Sora 공개 이후, 오픈 소스 커뮤니티에서도 이에 필적하는 고품질 모델들이 잇따라 등장하였다. Alibaba, Tencent, Zhipu AI, Lightricks 등 주요 기술 기업들이 모델 가중치와 학습 코드를 공개하면서, 누구나 자신의 인프라 위에서 비디오 생성 모델을 실행하고 파인튜닝할 수 있는 환경이 마련되었다.

현재 주목받는 오픈 소스 비디오 생성 모델들은 대부분 DiT(Diffusion Transformer) 아키텍처와 Flow Matching 기법을 채택하고 있으며, T2V(텍스트→비디오)와 I2V(이미지→비디오)를 모두 지원하는 방향으로 발전하고 있다. 파라미터 규모는 1B대의 경량 모델부터 13B·14B의 대형 모델까지 다양하며, 소비자용 GPU에서도 구동 가능한 최적화가 이루어지고 있다.


모델 목록

모델명개발사라이선스페이지
Wan2.1Alibaba (Qwen 팀)Apache 2.0바로가기
HunyuanVideoTencentApache 2.0바로가기
CogVideoXZhipu AI (Tsinghua)Apache 2.0바로가기
LTX-VideoLightricksApache 2.0바로가기
Mochi-1GenmoApache 2.0바로가기
Open-SoraHPC-AI TechApache 2.0바로가기

주요 모델 비교표

모델명개발사최대 해상도최대 길이라이선스주요 특징
Wan2.1-T2V-14BAlibaba720p~10초Apache 2.0VBench 1위(86.22%), 중·영문 자막 생성, Wan-VAE
Wan2.1-I2V-14BAlibaba720p~10초Apache 2.0시작·끝 프레임 기반 FLF2V 파생 모델 포함
Wan2.1-1.3BAlibaba480p~5초Apache 2.08GB VRAM에서 구동, 소비자 GPU 최적화
HunyuanVideoTencent1080p~13초Apache 2.0Causal 3D VAE, 오픈 소스 최대(13B)
HunyuanVideo-I2VTencent1080p~13초Apache 2.0HunyuanVideo 기반 이미지→비디오
CogVideoX-5BZhipu AI720p~10초Apache 2.03D VAE, LoRA 파인튜닝 지원
LTX-VideoLightricks768×51260초Apache 2.0DiT 기반 실시간 근접 속도, 24fps
LTX-2 (19B)Lightricks4K (3840×2160)20초Apache 2.0네이티브 4K, 50fps
Mochi-1Genmo480p~10초Apache 2.0AsymmDiT 10B, 부드러운 모션 품질
Open-Sora 1.3HPC-AI Tech720p15초Apache 2.01B~11B 다양, $20만 학습 비용 공개

기술 트렌드

DiT 기반 비디오 생성

초기 비디오 생성 모델이 UNet 기반 확산 모델에 의존하던 것과 달리, 현재 주요 오픈 소스 모델들은 대부분 Diffusion Transformer(DiT) 아키텍처를 채택하고 있다. DiT는 Transformer의 강력한 시퀀스 모델링 능력을 활용하여 공간·시간 정보를 함께 처리하며, 대규모 파라미터 확장에 유리하다.

Flow Matching

기존 DDPM 방식의 노이즈 스케줄 대신, Flow Matching(정류 흐름) 기법이 빠르게 표준으로 자리잡고 있다. Flow Matching은 노이즈에서 원본 데이터로 향하는 경로를 직선화하여 샘플링 효율을 크게 높인다. Wan2.1은 선형 노이즈 궤적 Flow Matching 패러다임을 명시적으로 채택하고 있으며, Open-Sora도 1.2 버전부터 Rectified Flow를 도입하였다.

3D VAE와 시공간 압축

비디오 데이터의 방대한 용량을 처리하기 위해, Causal 3D VAE 또는 Wan-VAE 같은 3차원 변분 오토인코더가 사용된다. 이를 통해 공간(H×W)뿐 아니라 시간(T) 축도 함께 압축하여 잠재 공간(latent space) 내에서 효율적으로 처리한다.

T2V / I2V 이중 지원

텍스트→비디오(T2V)와 이미지→비디오(I2V)를 동시에 지원하는 것이 사실상 표준이 되었다. Wan2.1은 여기서 더 나아가 시작 프레임과 끝 프레임을 동시에 지정하는 FLF2V(First-Last Frame to Video) 기능도 지원한다.

긴 영상 생성

LTX-Video는 최대 60초, Open-Sora는 최대 15초의 비디오를 생성할 수 있다. 긴 영상 생성은 메모리 사용량과 시간적 일관성 유지 측면에서 기술적으로 어려우며, 슬라이딩 윈도우, 청크 단위 처리 등 다양한 기법이 연구되고 있다.


선택 가이드

용도추천 모델이유
소비자 GPU(8~12GB VRAM)에서 빠른 실험Wan2.1-1.3B8GB VRAM으로 구동 가능, Apache 2.0
최고 품질 T2V (충분한 GPU 메모리)Wan2.1-14B / HunyuanVideoVBench 최상위 성적, 대형 파라미터
이미지→비디오 (I2V) 품질 우선HunyuanVideo-I2V / CogVideoXI2V 특화, 구도·스타일 보존
빠른 생성 속도가 중요한 경우LTX-VideoDiT 기반 실시간 근접 속도
고해상도(4K) 비디오 제작LTX-2 (19B)네이티브 4K 지원
연구·학습 코드까지 필요한 경우Open-Sora완전 공개 학습 파이프라인
LoRA 파인튜닝으로 커스텀 스타일CogVideoXLoRA 파인튜닝 공식 지원
부드럽고 자연스러운 모션 표현Mochi-1AsymmDiT 기반 고피델리티 모션

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.