CogVideoX 소개

개요

CogVideoX는 중국의 AI 연구 기관인 Zhipu AI(智谱AI)와 칭화대학교 THUDM 연구팀이 공동 개발한 오픈소스 영상 생성 모델이다. 텍스트 프롬프트 또는 이미지를 입력받아 고품질 영상을 생성하는 대규모 확산 트랜스포머(Diffusion Transformer) 모델로, 2024년 공개 이후 오픈소스 영상 생성 분야에서 높은 평가를 받고 있다.

GitHub 저장소는 THUDM/CogVideo이며, HuggingFace의 diffusers 라이브러리를 통해 손쉽게 사용할 수 있다. 코드와 일부 모델 가중치는 Apache 2.0 라이선스로 배포된다.

버전 비교

항목	CogVideoX-2B	CogVideoX-5B	CogVideoX1.5-5B (최신)
파라미터 수	20억 (2B)	50억 (5B)	50억 (5B, 개선판)
기본 해상도	720 × 480	1360 × 768	1360 × 768
T2V (텍스트→영상)	지원	지원	지원
I2V (이미지→영상)	미지원	지원 (5B-I2V)	지원
최대 영상 길이	약 6초	약 6초	약 10초
권장 프레임 수	49프레임	49 / 81프레임	최대 161프레임
권장 FPS	8fps	16fps	16fps
모델 라이선스	Apache 2.0	CogVideoX 전용	CogVideoX 전용
GPU VRAM (최적화 시)	~10GB	~16GB	~16GB

I2V(Image-to-Video): 정지 이미지를 입력으로 받아 해당 이미지에서 이어지는 자연스러운 영상을 생성하는 기능. 5B-I2V 체크포인트가 별도로 제공된다.

주요 특징

텍스트→영상 (T2V): 자연어 프롬프트만으로 고해상도 영상 생성
이미지→영상 (I2V): 정지 이미지를 시작점으로 동적인 영상 생성 (5B 버전)
긴 영상 지원: 최신 CogVideoX1.5-5B 기준 최대 10초(161프레임) 영상 생성
LoRA 파인튜닝 지원: diffusers의 load_lora_weights()로 커스텀 스타일 적용 가능
다양한 플랫폼 지원: HuggingFace, ModelScope, ComfyUI, Gradio 등
메모리 최적화: CPU 오프로딩, VAE 타일링, INT8 양자화 등으로 소비자용 GPU에서도 실행 가능

기술적 특징

3D Full Attention (3D 전체 어텐션)

CogVideoX의 핵심 기술 중 하나는 3D Full Attention 메커니즘이다. 일반적인 2D 공간 어텐션과 달리, 시간(T) + 높이(H) + 너비(W) 세 축 전체에 걸쳐 어텐션을 계산함으로써 영상 내 움직임과 시간적 일관성을 정밀하게 포착한다. 이를 통해 프레임 간 깜빡임(flickering) 현상이 줄고, 물체의 움직임이 자연스럽게 이어진다.

Expert Transformer

어댑티브 LayerNorm(적응형 레이어 정규화)을 적용한 Expert Transformer 구조를 사용하여 텍스트 설명과 영상 내용 간의 정렬(alignment)을 향상시켰다. 이는 프롬프트에 기술된 내용이 영상에 정확히 반영되도록 한다.

3D 인과적 VAE (3D Causal VAE)

영상 데이터를 효율적으로 처리하기 위해 **3D 인과적 변분 오토인코더(VAE)**를 사용한다. 이 구조는 영상의 시퀀스 길이를 압축하여 학습 연산량을 줄이면서도, 시간 축의 인과성을 유지해 프레임 간 자연스러운 전환을 보장한다.

3D RoPE 위치 인코딩

시간·공간 정보를 동시에 인코딩하는 **3D Rotary Position Embedding(RoPE)**을 사용해 다양한 해상도와 길이의 영상에서도 안정적인 위치 정보를 제공한다.

라이선스 및 링크

항목	내용
코드 라이선스	Apache 2.0
CogVideoX-2B 모델 라이선스	Apache 2.0
CogVideoX-5B 모델 라이선스	CogVideoX Model License (비상업적 연구 허용)
GitHub	THUDM/CogVideo
HuggingFace (2B)	THUDM/CogVideoX-2b
HuggingFace (5B)	THUDM/CogVideoX-5b
HuggingFace (5B-I2V)	THUDM/CogVideoX-5b-I2V
논문	arXiv:2408.06072
diffusers 문서	HuggingFace Diffusers - CogVideoX

개요