snow · 2026.5.17 23:59 · 조회 2

LTX-Video 소개

개요

LTX-Video는 이스라엘의 AI 영상 솔루션 기업 Lightricks가 개발한 오픈소스 비디오 생성 모델이다. DiT(Diffusion Transformer) 기반 아키텍처를 채택한 최초의 실시간 근접 비디오 생성 모델 중 하나로, 텍스트 프롬프트나 이미지로부터 고품질 영상을 빠르게 생성할 수 있다. Apache 2.0 라이선스 하에 공개되어 있으며, 상업적 활용도 가능하다.

2024년 11월 v0.9.0으로 첫 공개된 이후 꾸준히 업데이트되어 현재 v0.9.8까지 출시되었으며, HuggingFace diffusers 라이브러리와의 공식 통합을 지원해 Python 생태계에서 손쉽게 활용할 수 있다.


주요 특징

실시간에 근접한 생성 속도

LTX-Video의 가장 큰 차별점은 빠른 생성 속도다. 독창적인 Video-VAE 설계 덕분에 픽셀 대 잠재 공간 압축 비율이 1:192에 달해, 같은 품질의 영상을 훨씬 적은 연산으로 만들어낼 수 있다. H100 GPU 기준으로 768×512 해상도, 5초 분량 영상을 2~4초 만에 생성하며, 13B 증류(distilled) 모델도 HD 영상을 10초 안에 완성한다.

텍스트-영상(T2V) 및 이미지-영상(I2V) 지원

  • Text-to-Video(T2V): 텍스트 프롬프트만으로 영상 생성
  • Image-to-Video(I2V): 정지 이미지를 입력해 움직이는 영상으로 변환
  • 멀티 키프레임 조건부 생성, 영상 연장(forward/backward extension), 영상-to-영상 변환도 지원

유연한 해상도 및 프레임 설정

32의 배수 해상도와 8n + 1 형태의 프레임 수를 지원한다. 권장 설정은 720×1280 이하 해상도, 257 프레임 이하이며, 최신 버전에서는 최대 60초 길이의 영상 생성도 가능하다.

HuggingFace diffusers 완전 통합

LTXPipeline, LTXConditionPipeline, LTXLatentUpsamplePipeline 등 전용 파이프라인 클래스가 diffusers에 포함되어 있어, 표준 Python 코드로 바로 사용할 수 있다.


기술 아키텍처

Diffusion Transformer(DiT)

LTX-Video는 기존 U-Net 기반 확산 모델과 달리 Transformer 아키텍처를 확산 과정에 적용한 DiT 구조를 사용한다. 이를 통해 텍스트-영상 정렬 품질과 시간적 일관성이 크게 향상되었다.

Video-VAE (1:192 압축 비율)

핵심 혁신은 Video-VAE에 있다. 일반적인 VAE보다 훨씬 높은 1:192 압축 비율로 영상을 잠재 공간으로 인코딩하며, VAE 디코더가 잠재 공간 복원과 마지막 디노이징 스텝을 동시에 수행하는 구조로 세부 디테일 손실을 최소화한다.

모델 라인업 (v0.9.8 기준)

모델명파라미터특징
ltxv-13b-0.9.8-dev13B최고 품질, 높은 VRAM 요구
ltxv-13b-0.9.8-distilled13B증류 모델, 빠른 속도
ltxv-2b-0.9.8-distilled2B경량 모델, 낮은 VRAM 요구
FP8 양자화 버전각 모델 대응VRAM 절약, 추론 최적화

증류(distilled) 모델은 guidance_scale=1.0, num_inference_steps=4~10으로 운용하며, dev 모델은 guidance_scale=5.0 이상을 권장한다.


성능 벤치마크

환경해상도영상 길이생성 시간
H100 GPU (13B distilled)HD~5초약 10초
H100 GPU (13B distilled)저해상도 미리보기~5초약 3초
H100 GPU (2B)768×5125초2~4초

Mac Apple Silicon(M1/M2/M3/M4) 환경에서는 MPS(Metal Performance Shaders) 백엔드를 통해 GPU 가속이 가능하며, PyTorch 2.3.0 이상에서 안정적으로 동작한다. CUDA GPU 대비 생성 속도는 느리지만 로컬 실행이 가능하다.


버전 히스토리

버전출시 시기주요 변경 사항
v0.9.02024년 11월최초 공개, 기본 T2V/I2V 지원
v0.9.12024년 말타임스텝 인식 VAE 도입 (decode_timestep 파라미터)
v0.9.52025년 초멀티 키프레임 조건부 생성 지원
v0.9.62025년 상반기품질 개선
v0.9.72025년 상반기13B 파라미터 트랜스포머 + 공간적 잠재 업스케일러 도입
v0.9.82025년 7월 16일최대 60초 영상 지원, 추가 최적화

라이선스 및 링크

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.