Mochi-1 소개

개요

Mochi-1은 미국 AI 스타트업 Genmo가 개발한 오픈소스 텍스트-투-비디오(Text-to-Video) 생성 모델이다. 2024년 10월 공개되었으며, 오픈소스 비디오 생성 모델 중 최고 수준의 모션 품질과 프롬프트 충실도를 갖춘 것으로 평가받는다. 모델 가중치와 코드는 Apache 2.0 라이선스로 공개되어 상업적 활용도 가능하다.

Mochi-1은 약 100억(10B) 파라미터 규모의 디퓨전 모델로, 자체 개발한 Asymmetric Diffusion Transformer(AsymmDiT) 아키텍처를 기반으로 한다. HuggingFace diffusers 라이브러리를 통해 통합 지원하며, 로컬 환경에서도 직접 실행할 수 있다.

주요 특징

고피델리티 모션 품질

Mochi-1의 가장 두드러진 강점은 자연스럽고 물리적으로 일관된 모션이다. 기존 오픈소스 비디오 생성 모델 대비 월등히 부드러운 움직임과 시간적 일관성을 제공한다. 카메라 움직임, 인물 동작, 물체 이동 등이 현실감 있게 표현되며, 생성된 영상에서 프레임 간 깜박임이나 불자연스러운 전환이 크게 줄었다.

강력한 프롬프트 충실도

텍스트 프롬프트에 기술된 내용을 영상으로 정확히 반영하는 능력이 뛰어나다. 복잡한 장면 묘사나 세부적인 동작 지시도 높은 정확도로 구현된다.

오픈소스 및 상업적 활용 가능

모델 가중치와 추론 코드 전체가 Apache 2.0 라이선스로 공개되어 있어 연구 및 상업적 프로젝트에 제한 없이 사용할 수 있다. 기업 내 자체 배포나 파인튜닝도 허용된다.

AsymmDiT 아키텍처

Mochi-1의 핵심 혁신은 Asymmetric Diffusion Transformer(AsymmDiT) 아키텍처다.

비대칭 파라미터 분배

기존 멀티모달 디퓨전 트랜스포머(예: Stable Diffusion 3)는 텍스트와 비주얼 스트림에 비슷한 수의 파라미터를 할당한다. AsymmDiT는 이와 달리 비주얼 스트림에 텍스트 스트림 대비 약 4배 많은 파라미터를 배치한다. 더 큰 은닉 차원(hidden dimension)을 통해 비주얼 추론에 신경망 용량을 집중시키는 방식이다.

멀티모달 셀프 어텐션

텍스트 토큰과 비주얼 토큰을 멀티모달 셀프 어텐션으로 함께 처리한다. 두 모달리티는 공동 어텐션 연산을 공유하지만, MLP(다층 퍼셉트론) 레이어는 각 모달리티에 독립적으로 학습된다. 이를 통해 텍스트-비주얼 간 정렬 품질을 높이면서도 각 모달리티의 특성을 보존한다.

비정방형 프로젝션 레이어

두 모달리티를 셀프 어텐션에서 통합하기 위해 비정방형(non-square) QKV 및 출력 프로젝션 레이어를 사용한다. 이 비대칭 설계 덕분에 추론 시 메모리 요구량을 줄이면서 고품질 영상 생성이 가능하다.

단일 텍스트 인코더

많은 최신 디퓨전 모델이 여러 언어 모델을 조합해 텍스트를 인코딩하는 것과 달리, Mochi-1은 T5-XXL 단일 언어 모델만 사용하여 프롬프트를 인코딩한다. 구조를 단순화하면서도 강력한 텍스트 이해 성능을 유지한다.

성능 벤치마크

Mochi-1 preview는 공개 당시 오픈소스 비디오 생성 모델 중 최고 수준의 성능을 기록했다. Genmo 블로그의 예비 평가에서 모션 품질 및 프롬프트 충실도 지표 모두에서 기존 오픈소스 모델들을 상회했다.

항목	사양
파라미터 수	약 10B
텍스트 인코더	T5-XXL
추론 VRAM (풀 정밀도)	최소 42GB (단일 GPU 권장 60GB)
출력 해상도	480p (기본)
라이선스	Apache 2.0

TheStageAI의 Elastic Mochi-1 연구에 따르면, 양자화 모델도 원본 대비 1% 미만의 품질 손실로 경량화가 가능하다.

라이선스 및 링크

라이선스: Apache 2.0
GitHub: genmoai/mochi
HuggingFace 모델: genmo/mochi-1-preview
HuggingFace diffusers 문서: Mochi 1 Preview Pipeline
Genmo 공식 블로그: Mochi 1: A new SOTA in open text-to-video
Replicate 데모: genmoai/mochi-1

개요