snow · 2026.5.17 23:59 · 조회 2
LTX-Video 소개
개요
LTX-Video는 이스라엘의 AI 영상 솔루션 기업 Lightricks가 개발한 오픈소스 비디오 생성 모델이다. DiT(Diffusion Transformer) 기반 아키텍처를 채택한 최초의 실시간 근접 비디오 생성 모델 중 하나로, 텍스트 프롬프트나 이미지로부터 고품질 영상을 빠르게 생성할 수 있다. Apache 2.0 라이선스 하에 공개되어 있으며, 상업적 활용도 가능하다.
2024년 11월 v0.9.0으로 첫 공개된 이후 꾸준히 업데이트되어 현재 v0.9.8까지 출시되었으며, HuggingFace diffusers 라이브러리와의 공식 통합을 지원해 Python 생태계에서 손쉽게 활용할 수 있다.
주요 특징
실시간에 근접한 생성 속도
LTX-Video의 가장 큰 차별점은 빠른 생성 속도다. 독창적인 Video-VAE 설계 덕분에 픽셀 대 잠재 공간 압축 비율이 1:192에 달해, 같은 품질의 영상을 훨씬 적은 연산으로 만들어낼 수 있다. H100 GPU 기준으로 768×512 해상도, 5초 분량 영상을 2~4초 만에 생성하며, 13B 증류(distilled) 모델도 HD 영상을 10초 안에 완성한다.
텍스트-영상(T2V) 및 이미지-영상(I2V) 지원
- Text-to-Video(T2V): 텍스트 프롬프트만으로 영상 생성
- Image-to-Video(I2V): 정지 이미지를 입력해 움직이는 영상으로 변환
- 멀티 키프레임 조건부 생성, 영상 연장(forward/backward extension), 영상-to-영상 변환도 지원
유연한 해상도 및 프레임 설정
32의 배수 해상도와 8n + 1 형태의 프레임 수를 지원한다. 권장 설정은 720×1280 이하 해상도, 257 프레임 이하이며, 최신 버전에서는 최대 60초 길이의 영상 생성도 가능하다.
HuggingFace diffusers 완전 통합
LTXPipeline, LTXConditionPipeline, LTXLatentUpsamplePipeline 등 전용 파이프라인 클래스가 diffusers에 포함되어 있어, 표준 Python 코드로 바로 사용할 수 있다.
기술 아키텍처
Diffusion Transformer(DiT)
LTX-Video는 기존 U-Net 기반 확산 모델과 달리 Transformer 아키텍처를 확산 과정에 적용한 DiT 구조를 사용한다. 이를 통해 텍스트-영상 정렬 품질과 시간적 일관성이 크게 향상되었다.
Video-VAE (1:192 압축 비율)
핵심 혁신은 Video-VAE에 있다. 일반적인 VAE보다 훨씬 높은 1:192 압축 비율로 영상을 잠재 공간으로 인코딩하며, VAE 디코더가 잠재 공간 복원과 마지막 디노이징 스텝을 동시에 수행하는 구조로 세부 디테일 손실을 최소화한다.
모델 라인업 (v0.9.8 기준)
| 모델명 | 파라미터 | 특징 |
|---|---|---|
| ltxv-13b-0.9.8-dev | 13B | 최고 품질, 높은 VRAM 요구 |
| ltxv-13b-0.9.8-distilled | 13B | 증류 모델, 빠른 속도 |
| ltxv-2b-0.9.8-distilled | 2B | 경량 모델, 낮은 VRAM 요구 |
| FP8 양자화 버전 | 각 모델 대응 | VRAM 절약, 추론 최적화 |
증류(distilled) 모델은 guidance_scale=1.0, num_inference_steps=4~10으로 운용하며, dev 모델은 guidance_scale=5.0 이상을 권장한다.
성능 벤치마크
| 환경 | 해상도 | 영상 길이 | 생성 시간 |
|---|---|---|---|
| H100 GPU (13B distilled) | HD | ~5초 | 약 10초 |
| H100 GPU (13B distilled) | 저해상도 미리보기 | ~5초 | 약 3초 |
| H100 GPU (2B) | 768×512 | 5초 | 2~4초 |
Mac Apple Silicon(M1/M2/M3/M4) 환경에서는 MPS(Metal Performance Shaders) 백엔드를 통해 GPU 가속이 가능하며, PyTorch 2.3.0 이상에서 안정적으로 동작한다. CUDA GPU 대비 생성 속도는 느리지만 로컬 실행이 가능하다.
버전 히스토리
| 버전 | 출시 시기 | 주요 변경 사항 |
|---|---|---|
| v0.9.0 | 2024년 11월 | 최초 공개, 기본 T2V/I2V 지원 |
| v0.9.1 | 2024년 말 | 타임스텝 인식 VAE 도입 (decode_timestep 파라미터) |
| v0.9.5 | 2025년 초 | 멀티 키프레임 조건부 생성 지원 |
| v0.9.6 | 2025년 상반기 | 품질 개선 |
| v0.9.7 | 2025년 상반기 | 13B 파라미터 트랜스포머 + 공간적 잠재 업스케일러 도입 |
| v0.9.8 | 2025년 7월 16일 | 최대 60초 영상 지원, 추가 최적화 |
라이선스 및 링크
- 라이선스: Apache 2.0 — 상업적 이용 및 수정 배포 가능
- GitHub: Lightricks/LTX-Video
- HuggingFace 모델: Lightricks/LTX-Video
- HuggingFace diffusers 문서: LTX-Video Pipeline
- 온라인 데모: LTX Studio, Fal.ai, Replicate
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.