Open-Sora 소개

개요

Open-Sora는 HPC-AI Tech(ColossalAI 팀)가 개발한 오픈소스 비디오 생성 모델 프로젝트다. OpenAI의 Sora와 같은 상용 수준의 텍스트-투-비디오(T2V) 생성 능력을 누구나 자유롭게 사용할 수 있도록 하는 것을 목표로 한다. GitHub 저장소(hpcaitech/Open-Sora)를 통해 모델 가중치, 학습 코드, 추론 파이프라인 등 모든 구성 요소가 Apache 2.0 라이선스 하에 공개되어 있다.

2024년 3월 첫 공개 이후 꾸준히 업데이트되어, 2025년 초에는 단 $200k의 학습 비용으로 상용 수준의 성능을 달성한 Open-Sora 2.0(11B 파라미터)이 발표되었다. 이는 상용 모델 대비 학습 비용을 50% 이상 절감한 결과로, 비디오 생성 AI의 민주화라는 프로젝트 철학을 잘 보여준다.

Open-Sora vs Open-Sora-Plan 비교

이름이 비슷해 혼동하기 쉬운 두 프로젝트는 완전히 별개의 팀이 독립적으로 개발하고 있다.

항목	Open-Sora	Open-Sora-Plan
개발팀	HPC-AI Tech (ColossalAI)	PKU-YuanGroup (북경대)
GitHub	`hpcaitech/Open-Sora`	`PKU-YuanGroup/Open-Sora-Plan`
핵심 아키텍처	STDiT (Spatial-Temporal Diffusion Transformer)	CausalVideoVAE + Sparse DiT
VAE 방식	2D VAE + 3D VAE 스택 방식, 공간 8×8 + 시간 4× 압축	CausalVideoVAE, 공간·시간 4×8×8 압축
최신 버전	Open-Sora 2.0 (11B)	Open-Sora-Plan v1.5.0 (8B)
특징	낮은 학습 비용, 다양한 해상도/길이 지원	HunyuanVideo 대비 동등 성능 (8B 규모)
라이선스	Apache 2.0	Apache 2.0

두 프로젝트 모두 OpenAI Sora의 오픈소스 재현을 목표로 하지만, 기술 접근 방식과 아키텍처 설계가 다르다. Open-Sora가 비용 효율성과 모듈화에 초점을 맞추는 반면, Open-Sora-Plan은 CausalVideoVAE 기반의 이미지·비디오 통합 학습 방식에 강점을 둔다.

주요 특징

다양한 해상도 지원: 144p부터 2K까지, 임의의 종횡비(16:9, 9:16, 1:1, 2.39:1 등) 지원
긴 영상 생성: 최대 16초 길이의 비디오를 단일 추론으로 생성
다목적 생성 모드: 텍스트-투-비디오(T2V), 이미지-투-비디오(I2V), 비디오-투-비디오(V2V) 모두 지원
높은 비용 효율성: Open-Sora 2.0은 $200k 학습 비용으로 HunyuanVideo(11B), Step-Video(30B)와 동등한 성능 달성
완전 오픈소스: 모델 가중치, 학습 코드, 데이터 파이프라인 전체 공개

기술 아키텍처

STDiT (Spatial-Temporal Diffusion Transformer)

Open-Sora의 핵심은 Spatial-Temporal Diffusion Transformer(STDiT) 아키텍처다. 공간(Spatial) 어텐션과 시간(Temporal) 어텐션을 분리하여 처리함으로써 비디오의 공간적 일관성과 시간적 연속성을 동시에 효율적으로 모델링한다.

Rotary Position Embedding(RoPE): 사인 기반 위치 인코딩 대신 RoPE를 사용해 더 긴 시퀀스에도 안정적인 위치 정보 표현
QK-Normalization: 쿼리·키 벡터 정규화를 통한 학습 안정성 향상
Zero-초기화 시간 어텐션 블록: 사전 학습된 이미지 생성 모델로부터 점진적으로 비디오 생성 능력을 확장

3D 오토인코더 (VAE)

효율적인 비디오 압축을 위해 두 VAE를 조합한 하이브리드 방식을 사용한다.

2D VAE (84M 파라미터, SDXL 기반): 공간 차원 8×8 압축
3D VAE (300M 파라미터, Magvit-v2 기반): 시간 차원 4× 추가 압축

이 조합으로 비디오를 고도로 압축된 잠재 공간(latent space)에서 처리하여 계산 비용을 크게 줄이면서도 높은 재구성 품질(PSNR 30.59, SSIM 0.880)을 유지한다.

Open-Sora 2.0 아키텍처 개선

버전 2.0에서는 FLUX의 MMDiT에서 영감을 받은 하이브리드 트랜스포머 구조를 채택했다. 텍스트와 비디오 정보를 별도 스트림에서 처리하는 이중 스트림(dual-stream) 블록과, 두 모달리티를 통합 처리하는 단일 스트림(single-stream) 블록을 결합하여 텍스트-비디오 정렬 품질을 높였다.

학습 방식

멀티스테이지 커리큘럼 학습 전략을 사용한다.

Stage 1: Webvid-10M 데이터셋, 240p~360p 해상도 (~30k steps)
Stage 2: Panda-70M 필터링 서브셋, 360p~480p 해상도 (~23k steps)
Stage 3: 큐레이션된 2M 클립, 720p~1080p 고해상도 (~15k steps)

해상도·프레임 수·종횡비를 기준으로 비디오를 그룹화하는 **버킷 기반 학습(bucket-based training)**을 통해 다양한 포맷을 효율적으로 처리한다.

라이선스 및 링크

라이선스: Apache 2.0 (상업적 이용 가능)
GitHub: hpcaitech/Open-Sora
Hugging Face: hpcai-tech/Open-Sora
논문 (arXiv): Open-Sora: Democratizing Efficient Video Production for All
Open-Sora 2.0 논문: Training a Commercial-Level Video Generation Model in $200k
공식 블로그: HPC-AI Tech Blog

개요