LTX-Video 소개

개요

LTX-Video는 이스라엘의 AI 영상 솔루션 기업 Lightricks가 개발한 오픈소스 비디오 생성 모델이다. DiT(Diffusion Transformer) 기반 아키텍처를 채택한 최초의 실시간 근접 비디오 생성 모델 중 하나로, 텍스트 프롬프트나 이미지로부터 고품질 영상을 빠르게 생성할 수 있다. Apache 2.0 라이선스 하에 공개되어 있으며, 상업적 활용도 가능하다.

2024년 11월 v0.9.0으로 첫 공개된 이후 꾸준히 업데이트되어 현재 v0.9.8까지 출시되었으며, HuggingFace diffusers 라이브러리와의 공식 통합을 지원해 Python 생태계에서 손쉽게 활용할 수 있다.

주요 특징

실시간에 근접한 생성 속도

LTX-Video의 가장 큰 차별점은 빠른 생성 속도다. 독창적인 Video-VAE 설계 덕분에 픽셀 대 잠재 공간 압축 비율이 1:192에 달해, 같은 품질의 영상을 훨씬 적은 연산으로 만들어낼 수 있다. H100 GPU 기준으로 768×512 해상도, 5초 분량 영상을 2~4초 만에 생성하며, 13B 증류(distilled) 모델도 HD 영상을 10초 안에 완성한다.

텍스트-영상(T2V) 및 이미지-영상(I2V) 지원

Text-to-Video(T2V): 텍스트 프롬프트만으로 영상 생성
Image-to-Video(I2V): 정지 이미지를 입력해 움직이는 영상으로 변환
멀티 키프레임 조건부 생성, 영상 연장(forward/backward extension), 영상-to-영상 변환도 지원

유연한 해상도 및 프레임 설정

32의 배수 해상도와 8n + 1 형태의 프레임 수를 지원한다. 권장 설정은 720×1280 이하 해상도, 257 프레임 이하이며, 최신 버전에서는 최대 60초 길이의 영상 생성도 가능하다.

HuggingFace diffusers 완전 통합

LTXPipeline, LTXConditionPipeline, LTXLatentUpsamplePipeline 등 전용 파이프라인 클래스가 diffusers에 포함되어 있어, 표준 Python 코드로 바로 사용할 수 있다.

기술 아키텍처

Diffusion Transformer(DiT)

LTX-Video는 기존 U-Net 기반 확산 모델과 달리 Transformer 아키텍처를 확산 과정에 적용한 DiT 구조를 사용한다. 이를 통해 텍스트-영상 정렬 품질과 시간적 일관성이 크게 향상되었다.

Video-VAE (1:192 압축 비율)

핵심 혁신은 Video-VAE에 있다. 일반적인 VAE보다 훨씬 높은 1:192 압축 비율로 영상을 잠재 공간으로 인코딩하며, VAE 디코더가 잠재 공간 복원과 마지막 디노이징 스텝을 동시에 수행하는 구조로 세부 디테일 손실을 최소화한다.

모델 라인업 (v0.9.8 기준)

모델명	파라미터	특징
ltxv-13b-0.9.8-dev	13B	최고 품질, 높은 VRAM 요구
ltxv-13b-0.9.8-distilled	13B	증류 모델, 빠른 속도
ltxv-2b-0.9.8-distilled	2B	경량 모델, 낮은 VRAM 요구
FP8 양자화 버전	각 모델 대응	VRAM 절약, 추론 최적화

증류(distilled) 모델은 guidance_scale=1.0, num_inference_steps=4~10으로 운용하며, dev 모델은 guidance_scale=5.0 이상을 권장한다.

성능 벤치마크

환경	해상도	영상 길이	생성 시간
H100 GPU (13B distilled)	HD	~5초	약 10초
H100 GPU (13B distilled)	저해상도 미리보기	~5초	약 3초
H100 GPU (2B)	768×512	5초	2~4초

Mac Apple Silicon(M1/M2/M3/M4) 환경에서는 MPS(Metal Performance Shaders) 백엔드를 통해 GPU 가속이 가능하며, PyTorch 2.3.0 이상에서 안정적으로 동작한다. CUDA GPU 대비 생성 속도는 느리지만 로컬 실행이 가능하다.

버전 히스토리

버전	출시 시기	주요 변경 사항
v0.9.0	2024년 11월	최초 공개, 기본 T2V/I2V 지원
v0.9.1	2024년 말	타임스텝 인식 VAE 도입 (`decode_timestep` 파라미터)
v0.9.5	2025년 초	멀티 키프레임 조건부 생성 지원
v0.9.6	2025년 상반기	품질 개선
v0.9.7	2025년 상반기	13B 파라미터 트랜스포머 + 공간적 잠재 업스케일러 도입
v0.9.8	2025년 7월 16일	최대 60초 영상 지원, 추가 최적화

라이선스 및 링크

라이선스: Apache 2.0 — 상업적 이용 및 수정 배포 가능
GitHub: Lightricks/LTX-Video
HuggingFace 모델: Lightricks/LTX-Video
HuggingFace diffusers 문서: LTX-Video Pipeline
온라인 데모: LTX Studio, Fal.ai, Replicate

개요