snow · 2026.5.10 07:13 · 조회 1

Wan2.1 소개

개요

Wan2.1은 알리바바(Alibaba)의 완샹(Wan) 팀이 2025년 2월 오픈소스로 공개한 대규모 비디오 생성 모델이다. 텍스트→비디오(T2V), 이미지→비디오(I2V) 등 다양한 생성 태스크를 지원하며, Apache 2.0 라이선스로 상업적 이용이 가능하다. VBench 벤치마크에서 오픈소스 및 상용 모델을 통틀어 최고 수준의 성능(86.22%)을 기록하며 Sora(84.28%)를 앞질렀다.

모델 아키텍처는 Diffusion Transformer(DiT) 패러다임을 기반으로 하며, 비디오 생성에 특화된 3D 인과 변분 오토인코더인 Wan-VAE를 핵심 구성 요소로 사용한다. 중국어·영어 이중 언어 텍스트 오버레이 생성을 공식 지원하는 최초의 비디오 생성 모델이기도 하다.

GitHub 저장소: wan-video/Wan2.1


모델 버전 비교

모델파라미터태스크최대 해상도최소 VRAM특징
T2V-14B14B텍스트→비디오720p~16 GB최고 품질, 높은 모션 역동성
T2V-1.3B1.3B텍스트→비디오480p~8.19 GB경량, 소비자 GPU 호환
I2V-14B-720P14B이미지→비디오720p~16 GB고해상도 I2V
I2V-14B-480P14B이미지→비디오480p~16 GB표준 해상도 I2V

참고: T2V-1.3B 모델은 RTX 4090 기준 5초 480p 영상을 약 4분(최적화 없이)에 생성하며, 8.19 GB VRAM으로 구동 가능해 대부분의 소비자 GPU에서 실행할 수 있다.


주요 특징

다양한 생성 태스크 지원

  • 텍스트→비디오(T2V): 텍스트 프롬프트만으로 고품질 영상 생성
  • 이미지→비디오(I2V): 입력 이미지를 기반으로 자연스러운 움직임이 포함된 영상 생성
  • 비디오 편집: 기존 영상의 내용을 텍스트 지시로 수정
  • 텍스트→이미지(T2I): 고품질 정지 이미지 생성
  • 비디오→오디오(V2A): 영상에 어울리는 오디오 자동 생성

고품질 영상 생성

  • Wan-VAE를 통한 높은 시공간 압축률과 세밀한 디테일 보존
  • 현실적인 물리 법칙을 반영한 자연스러운 모션 표현
  • 복잡한 장면 구성과 정교한 텍스트 렌더링 지원

이중 언어 텍스트 오버레이

한국어를 포함한 동아시아권 사용자에게 유용한 중국어·영어 이중 언어 텍스트 효과를 영상 내에 직접 렌더링할 수 있다.

HuggingFace Diffusers 통합

diffusers 라이브러리를 통해 파이프라인 형태로 간편하게 사용할 수 있다. WanPipeline, WanImageToVideoPipeline 등의 클래스가 공식 지원된다.


성능 벤치마크

벤치마크Wan2.1 T2V-14BSoraHunyuanVideo
VBench 종합 점수86.22%84.28%비공개
모션 역동성최상
시각적 품질최상최상
프롬프트 충실도최상

Wan2.1은 VBench의 모션 역동성, 시각적 품질, 프롬프트 충실도 등 다수의 세부 항목에서 기존 오픈소스 모델(CogVideoX, Mochi 1, LTX-Video 등)과 상용 모델(Sora)을 앞서는 성능을 보인다.


라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.