snow · 2026.5.18 00:02 · 조회 3
오픈 소스 비디오 생성 모델
개요
비디오 생성 AI는 2024년 말부터 2025년에 걸쳐 급격한 발전을 이루었다. OpenAI의 Sora 공개 이후, 오픈 소스 커뮤니티에서도 이에 필적하는 고품질 모델들이 잇따라 등장하였다. Alibaba, Tencent, Zhipu AI, Lightricks 등 주요 기술 기업들이 모델 가중치와 학습 코드를 공개하면서, 누구나 자신의 인프라 위에서 비디오 생성 모델을 실행하고 파인튜닝할 수 있는 환경이 마련되었다.
현재 주목받는 오픈 소스 비디오 생성 모델들은 대부분 DiT(Diffusion Transformer) 아키텍처와 Flow Matching 기법을 채택하고 있으며, T2V(텍스트→비디오)와 I2V(이미지→비디오)를 모두 지원하는 방향으로 발전하고 있다. 파라미터 규모는 1B대의 경량 모델부터 13B·14B의 대형 모델까지 다양하며, 소비자용 GPU에서도 구동 가능한 최적화가 이루어지고 있다.
모델 목록
| 모델명 | 개발사 | 라이선스 | 페이지 |
|---|---|---|---|
| Wan2.1 | Alibaba (Qwen 팀) | Apache 2.0 | 바로가기 |
| HunyuanVideo | Tencent | Apache 2.0 | 바로가기 |
| CogVideoX | Zhipu AI (Tsinghua) | Apache 2.0 | 바로가기 |
| LTX-Video | Lightricks | Apache 2.0 | 바로가기 |
| Mochi-1 | Genmo | Apache 2.0 | 바로가기 |
| Open-Sora | HPC-AI Tech | Apache 2.0 | 바로가기 |
주요 모델 비교표
| 모델명 | 개발사 | 최대 해상도 | 최대 길이 | 라이선스 | 주요 특징 |
|---|---|---|---|---|---|
| Wan2.1-T2V-14B | Alibaba | 720p | ~10초 | Apache 2.0 | VBench 1위(86.22%), 중·영문 자막 생성, Wan-VAE |
| Wan2.1-I2V-14B | Alibaba | 720p | ~10초 | Apache 2.0 | 시작·끝 프레임 기반 FLF2V 파생 모델 포함 |
| Wan2.1-1.3B | Alibaba | 480p | ~5초 | Apache 2.0 | 8GB VRAM에서 구동, 소비자 GPU 최적화 |
| HunyuanVideo | Tencent | 1080p | ~13초 | Apache 2.0 | Causal 3D VAE, 오픈 소스 최대(13B) |
| HunyuanVideo-I2V | Tencent | 1080p | ~13초 | Apache 2.0 | HunyuanVideo 기반 이미지→비디오 |
| CogVideoX-5B | Zhipu AI | 720p | ~10초 | Apache 2.0 | 3D VAE, LoRA 파인튜닝 지원 |
| LTX-Video | Lightricks | 768×512 | 60초 | Apache 2.0 | DiT 기반 실시간 근접 속도, 24fps |
| LTX-2 (19B) | Lightricks | 4K (3840×2160) | 20초 | Apache 2.0 | 네이티브 4K, 50fps |
| Mochi-1 | Genmo | 480p | ~10초 | Apache 2.0 | AsymmDiT 10B, 부드러운 모션 품질 |
| Open-Sora 1.3 | HPC-AI Tech | 720p | 15초 | Apache 2.0 | 1B~11B 다양, $20만 학습 비용 공개 |
기술 트렌드
DiT 기반 비디오 생성
초기 비디오 생성 모델이 UNet 기반 확산 모델에 의존하던 것과 달리, 현재 주요 오픈 소스 모델들은 대부분 Diffusion Transformer(DiT) 아키텍처를 채택하고 있다. DiT는 Transformer의 강력한 시퀀스 모델링 능력을 활용하여 공간·시간 정보를 함께 처리하며, 대규모 파라미터 확장에 유리하다.
Flow Matching
기존 DDPM 방식의 노이즈 스케줄 대신, Flow Matching(정류 흐름) 기법이 빠르게 표준으로 자리잡고 있다. Flow Matching은 노이즈에서 원본 데이터로 향하는 경로를 직선화하여 샘플링 효율을 크게 높인다. Wan2.1은 선형 노이즈 궤적 Flow Matching 패러다임을 명시적으로 채택하고 있으며, Open-Sora도 1.2 버전부터 Rectified Flow를 도입하였다.
3D VAE와 시공간 압축
비디오 데이터의 방대한 용량을 처리하기 위해, Causal 3D VAE 또는 Wan-VAE 같은 3차원 변분 오토인코더가 사용된다. 이를 통해 공간(H×W)뿐 아니라 시간(T) 축도 함께 압축하여 잠재 공간(latent space) 내에서 효율적으로 처리한다.
T2V / I2V 이중 지원
텍스트→비디오(T2V)와 이미지→비디오(I2V)를 동시에 지원하는 것이 사실상 표준이 되었다. Wan2.1은 여기서 더 나아가 시작 프레임과 끝 프레임을 동시에 지정하는 FLF2V(First-Last Frame to Video) 기능도 지원한다.
긴 영상 생성
LTX-Video는 최대 60초, Open-Sora는 최대 15초의 비디오를 생성할 수 있다. 긴 영상 생성은 메모리 사용량과 시간적 일관성 유지 측면에서 기술적으로 어려우며, 슬라이딩 윈도우, 청크 단위 처리 등 다양한 기법이 연구되고 있다.
선택 가이드
| 용도 | 추천 모델 | 이유 |
|---|---|---|
| 소비자 GPU(8~12GB VRAM)에서 빠른 실험 | Wan2.1-1.3B | 8GB VRAM으로 구동 가능, Apache 2.0 |
| 최고 품질 T2V (충분한 GPU 메모리) | Wan2.1-14B / HunyuanVideo | VBench 최상위 성적, 대형 파라미터 |
| 이미지→비디오 (I2V) 품질 우선 | HunyuanVideo-I2V / CogVideoX | I2V 특화, 구도·스타일 보존 |
| 빠른 생성 속도가 중요한 경우 | LTX-Video | DiT 기반 실시간 근접 속도 |
| 고해상도(4K) 비디오 제작 | LTX-2 (19B) | 네이티브 4K 지원 |
| 연구·학습 코드까지 필요한 경우 | Open-Sora | 완전 공개 학습 파이프라인 |
| LoRA 파인튜닝으로 커스텀 스타일 | CogVideoX | LoRA 파인튜닝 공식 지원 |
| 부드럽고 자연스러운 모션 표현 | Mochi-1 | AsymmDiT 기반 고피델리티 모션 |
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.