Wan2.1 소개

개요

Wan2.1은 알리바바(Alibaba)의 완샹(Wan) 팀이 2025년 2월 오픈소스로 공개한 대규모 비디오 생성 모델이다. 텍스트→비디오(T2V), 이미지→비디오(I2V) 등 다양한 생성 태스크를 지원하며, Apache 2.0 라이선스로 상업적 이용이 가능하다. VBench 벤치마크에서 오픈소스 및 상용 모델을 통틀어 최고 수준의 성능(86.22%)을 기록하며 Sora(84.28%)를 앞질렀다.

모델 아키텍처는 Diffusion Transformer(DiT) 패러다임을 기반으로 하며, 비디오 생성에 특화된 3D 인과 변분 오토인코더인 Wan-VAE를 핵심 구성 요소로 사용한다. 중국어·영어 이중 언어 텍스트 오버레이 생성을 공식 지원하는 최초의 비디오 생성 모델이기도 하다.

GitHub 저장소: wan-video/Wan2.1

모델 버전 비교

모델	파라미터	태스크	최대 해상도	최소 VRAM	특징
T2V-14B	14B	텍스트→비디오	720p	~16 GB	최고 품질, 높은 모션 역동성
T2V-1.3B	1.3B	텍스트→비디오	480p	~8.19 GB	경량, 소비자 GPU 호환
I2V-14B-720P	14B	이미지→비디오	720p	~16 GB	고해상도 I2V
I2V-14B-480P	14B	이미지→비디오	480p	~16 GB	표준 해상도 I2V

참고: T2V-1.3B 모델은 RTX 4090 기준 5초 480p 영상을 약 4분(최적화 없이)에 생성하며, 8.19 GB VRAM으로 구동 가능해 대부분의 소비자 GPU에서 실행할 수 있다.

주요 특징

다양한 생성 태스크 지원

텍스트→비디오(T2V): 텍스트 프롬프트만으로 고품질 영상 생성
이미지→비디오(I2V): 입력 이미지를 기반으로 자연스러운 움직임이 포함된 영상 생성
비디오 편집: 기존 영상의 내용을 텍스트 지시로 수정
텍스트→이미지(T2I): 고품질 정지 이미지 생성
비디오→오디오(V2A): 영상에 어울리는 오디오 자동 생성

고품질 영상 생성

Wan-VAE를 통한 높은 시공간 압축률과 세밀한 디테일 보존
현실적인 물리 법칙을 반영한 자연스러운 모션 표현
복잡한 장면 구성과 정교한 텍스트 렌더링 지원

이중 언어 텍스트 오버레이

한국어를 포함한 동아시아권 사용자에게 유용한 중국어·영어 이중 언어 텍스트 효과를 영상 내에 직접 렌더링할 수 있다.

HuggingFace Diffusers 통합

diffusers 라이브러리를 통해 파이프라인 형태로 간편하게 사용할 수 있다. WanPipeline, WanImageToVideoPipeline 등의 클래스가 공식 지원된다.

성능 벤치마크

벤치마크	Wan2.1 T2V-14B	Sora	HunyuanVideo
VBench 종합 점수	86.22%	84.28%	비공개
모션 역동성	최상	상	상
시각적 품질	최상	최상	상
프롬프트 충실도	최상	상	상

Wan2.1은 VBench의 모션 역동성, 시각적 품질, 프롬프트 충실도 등 다수의 세부 항목에서 기존 오픈소스 모델(CogVideoX, Mochi 1, LTX-Video 등)과 상용 모델(Sora)을 앞서는 성능을 보인다.

라이선스 및 링크

라이선스: Apache 2.0 — 상업적 이용, 수정, 배포 모두 허용
GitHub: https://github.com/Wan-Video/Wan2.1
HuggingFace (T2V-14B): Wan-AI/Wan2.1-T2V-14B
HuggingFace (T2V-1.3B): Wan-AI/Wan2.1-T2V-1.3B
HuggingFace (I2V-14B-720P): Wan-AI/Wan2.1-I2V-14B-720P
Diffusers 공식 문서: huggingface.co/docs/diffusers/api/pipelines/wan

개요