snow · 2026.5.10 07:13 · 조회 1
Wan2.1 소개
개요
Wan2.1은 알리바바(Alibaba)의 완샹(Wan) 팀이 2025년 2월 오픈소스로 공개한 대규모 비디오 생성 모델이다. 텍스트→비디오(T2V), 이미지→비디오(I2V) 등 다양한 생성 태스크를 지원하며, Apache 2.0 라이선스로 상업적 이용이 가능하다. VBench 벤치마크에서 오픈소스 및 상용 모델을 통틀어 최고 수준의 성능(86.22%)을 기록하며 Sora(84.28%)를 앞질렀다.
모델 아키텍처는 Diffusion Transformer(DiT) 패러다임을 기반으로 하며, 비디오 생성에 특화된 3D 인과 변분 오토인코더인 Wan-VAE를 핵심 구성 요소로 사용한다. 중국어·영어 이중 언어 텍스트 오버레이 생성을 공식 지원하는 최초의 비디오 생성 모델이기도 하다.
GitHub 저장소: wan-video/Wan2.1
모델 버전 비교
| 모델 | 파라미터 | 태스크 | 최대 해상도 | 최소 VRAM | 특징 |
|---|---|---|---|---|---|
| T2V-14B | 14B | 텍스트→비디오 | 720p | ~16 GB | 최고 품질, 높은 모션 역동성 |
| T2V-1.3B | 1.3B | 텍스트→비디오 | 480p | ~8.19 GB | 경량, 소비자 GPU 호환 |
| I2V-14B-720P | 14B | 이미지→비디오 | 720p | ~16 GB | 고해상도 I2V |
| I2V-14B-480P | 14B | 이미지→비디오 | 480p | ~16 GB | 표준 해상도 I2V |
참고: T2V-1.3B 모델은 RTX 4090 기준 5초 480p 영상을 약 4분(최적화 없이)에 생성하며, 8.19 GB VRAM으로 구동 가능해 대부분의 소비자 GPU에서 실행할 수 있다.
주요 특징
다양한 생성 태스크 지원
- 텍스트→비디오(T2V): 텍스트 프롬프트만으로 고품질 영상 생성
- 이미지→비디오(I2V): 입력 이미지를 기반으로 자연스러운 움직임이 포함된 영상 생성
- 비디오 편집: 기존 영상의 내용을 텍스트 지시로 수정
- 텍스트→이미지(T2I): 고품질 정지 이미지 생성
- 비디오→오디오(V2A): 영상에 어울리는 오디오 자동 생성
고품질 영상 생성
- Wan-VAE를 통한 높은 시공간 압축률과 세밀한 디테일 보존
- 현실적인 물리 법칙을 반영한 자연스러운 모션 표현
- 복잡한 장면 구성과 정교한 텍스트 렌더링 지원
이중 언어 텍스트 오버레이
한국어를 포함한 동아시아권 사용자에게 유용한 중국어·영어 이중 언어 텍스트 효과를 영상 내에 직접 렌더링할 수 있다.
HuggingFace Diffusers 통합
diffusers 라이브러리를 통해 파이프라인 형태로 간편하게 사용할 수 있다. WanPipeline, WanImageToVideoPipeline 등의 클래스가 공식 지원된다.
성능 벤치마크
| 벤치마크 | Wan2.1 T2V-14B | Sora | HunyuanVideo |
|---|---|---|---|
| VBench 종합 점수 | 86.22% | 84.28% | 비공개 |
| 모션 역동성 | 최상 | 상 | 상 |
| 시각적 품질 | 최상 | 최상 | 상 |
| 프롬프트 충실도 | 최상 | 상 | 상 |
Wan2.1은 VBench의 모션 역동성, 시각적 품질, 프롬프트 충실도 등 다수의 세부 항목에서 기존 오픈소스 모델(CogVideoX, Mochi 1, LTX-Video 등)과 상용 모델(Sora)을 앞서는 성능을 보인다.
라이선스 및 링크
- 라이선스: Apache 2.0 — 상업적 이용, 수정, 배포 모두 허용
- GitHub: https://github.com/Wan-Video/Wan2.1
- HuggingFace (T2V-14B): Wan-AI/Wan2.1-T2V-14B
- HuggingFace (T2V-1.3B): Wan-AI/Wan2.1-T2V-1.3B
- HuggingFace (I2V-14B-720P): Wan-AI/Wan2.1-I2V-14B-720P
- Diffusers 공식 문서: huggingface.co/docs/diffusers/api/pipelines/wan
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.