snow · 2026.5.18 00:02 · 조회 3
Open-Sora 소개
개요
Open-Sora는 HPC-AI Tech(ColossalAI 팀)가 개발한 오픈소스 비디오 생성 모델 프로젝트다. OpenAI의 Sora와 같은 상용 수준의 텍스트-투-비디오(T2V) 생성 능력을 누구나 자유롭게 사용할 수 있도록 하는 것을 목표로 한다. GitHub 저장소(hpcaitech/Open-Sora)를 통해 모델 가중치, 학습 코드, 추론 파이프라인 등 모든 구성 요소가 Apache 2.0 라이선스 하에 공개되어 있다.
2024년 3월 첫 공개 이후 꾸준히 업데이트되어, 2025년 초에는 단 $200k의 학습 비용으로 상용 수준의 성능을 달성한 Open-Sora 2.0(11B 파라미터)이 발표되었다. 이는 상용 모델 대비 학습 비용을 50% 이상 절감한 결과로, 비디오 생성 AI의 민주화라는 프로젝트 철학을 잘 보여준다.
Open-Sora vs Open-Sora-Plan 비교
이름이 비슷해 혼동하기 쉬운 두 프로젝트는 완전히 별개의 팀이 독립적으로 개발하고 있다.
| 항목 | Open-Sora | Open-Sora-Plan |
|---|---|---|
| 개발팀 | HPC-AI Tech (ColossalAI) | PKU-YuanGroup (북경대) |
| GitHub | hpcaitech/Open-Sora | PKU-YuanGroup/Open-Sora-Plan |
| 핵심 아키텍처 | STDiT (Spatial-Temporal Diffusion Transformer) | CausalVideoVAE + Sparse DiT |
| VAE 방식 | 2D VAE + 3D VAE 스택 방식, 공간 8×8 + 시간 4× 압축 | CausalVideoVAE, 공간·시간 4×8×8 압축 |
| 최신 버전 | Open-Sora 2.0 (11B) | Open-Sora-Plan v1.5.0 (8B) |
| 특징 | 낮은 학습 비용, 다양한 해상도/길이 지원 | HunyuanVideo 대비 동등 성능 (8B 규모) |
| 라이선스 | Apache 2.0 | Apache 2.0 |
두 프로젝트 모두 OpenAI Sora의 오픈소스 재현을 목표로 하지만, 기술 접근 방식과 아키텍처 설계가 다르다. Open-Sora가 비용 효율성과 모듈화에 초점을 맞추는 반면, Open-Sora-Plan은 CausalVideoVAE 기반의 이미지·비디오 통합 학습 방식에 강점을 둔다.
주요 특징
- 다양한 해상도 지원: 144p부터 2K까지, 임의의 종횡비(16:9, 9:16, 1:1, 2.39:1 등) 지원
- 긴 영상 생성: 최대 16초 길이의 비디오를 단일 추론으로 생성
- 다목적 생성 모드: 텍스트-투-비디오(T2V), 이미지-투-비디오(I2V), 비디오-투-비디오(V2V) 모두 지원
- 높은 비용 효율성: Open-Sora 2.0은 $200k 학습 비용으로 HunyuanVideo(11B), Step-Video(30B)와 동등한 성능 달성
- 완전 오픈소스: 모델 가중치, 학습 코드, 데이터 파이프라인 전체 공개
기술 아키텍처
STDiT (Spatial-Temporal Diffusion Transformer)
Open-Sora의 핵심은 Spatial-Temporal Diffusion Transformer(STDiT) 아키텍처다. 공간(Spatial) 어텐션과 시간(Temporal) 어텐션을 분리하여 처리함으로써 비디오의 공간적 일관성과 시간적 연속성을 동시에 효율적으로 모델링한다.
- Rotary Position Embedding(RoPE): 사인 기반 위치 인코딩 대신 RoPE를 사용해 더 긴 시퀀스에도 안정적인 위치 정보 표현
- QK-Normalization: 쿼리·키 벡터 정규화를 통한 학습 안정성 향상
- Zero-초기화 시간 어텐션 블록: 사전 학습된 이미지 생성 모델로부터 점진적으로 비디오 생성 능력을 확장
3D 오토인코더 (VAE)
효율적인 비디오 압축을 위해 두 VAE를 조합한 하이브리드 방식을 사용한다.
- 2D VAE (84M 파라미터, SDXL 기반): 공간 차원 8×8 압축
- 3D VAE (300M 파라미터, Magvit-v2 기반): 시간 차원 4× 추가 압축
이 조합으로 비디오를 고도로 압축된 잠재 공간(latent space)에서 처리하여 계산 비용을 크게 줄이면서도 높은 재구성 품질(PSNR 30.59, SSIM 0.880)을 유지한다.
Open-Sora 2.0 아키텍처 개선
버전 2.0에서는 FLUX의 MMDiT에서 영감을 받은 하이브리드 트랜스포머 구조를 채택했다. 텍스트와 비디오 정보를 별도 스트림에서 처리하는 이중 스트림(dual-stream) 블록과, 두 모달리티를 통합 처리하는 단일 스트림(single-stream) 블록을 결합하여 텍스트-비디오 정렬 품질을 높였다.
학습 방식
멀티스테이지 커리큘럼 학습 전략을 사용한다.
- Stage 1: Webvid-10M 데이터셋, 240p~360p 해상도 (~30k steps)
- Stage 2: Panda-70M 필터링 서브셋, 360p~480p 해상도 (~23k steps)
- Stage 3: 큐레이션된 2M 클립, 720p~1080p 고해상도 (~15k steps)
해상도·프레임 수·종횡비를 기준으로 비디오를 그룹화하는 **버킷 기반 학습(bucket-based training)**을 통해 다양한 포맷을 효율적으로 처리한다.
라이선스 및 링크
- 라이선스: Apache 2.0 (상업적 이용 가능)
- GitHub: hpcaitech/Open-Sora
- Hugging Face: hpcai-tech/Open-Sora
- 논문 (arXiv): Open-Sora: Democratizing Efficient Video Production for All
- Open-Sora 2.0 논문: Training a Commercial-Level Video Generation Model in $200k
- 공식 블로그: HPC-AI Tech Blog
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.