HunyuanDiT 소개

개요

HunyuanDiT(혼원-DiT)는 Tencent(텐센트)가 개발한 오픈소스 텍스트-이미지 생성 모델로, 2024년 5월에 공개되었습니다. 정식 명칭은 Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding이며, 중국어와 영어 이중 언어에 대한 세밀한 이해를 바탕으로 고품질 이미지를 생성하는 데 특화되어 있습니다.

기존의 영어 중심 이미지 생성 모델들이 중국어 프롬프트를 처리할 때 한계를 보이는 것과 달리, HunyuanDiT는 중국어 텍스트 렌더링과 중국 문화적 맥락(한자, 인물, 건축, 전통 요소 등)을 정확히 이해하고 시각적으로 표현하는 능력을 갖추고 있습니다. Diffusion Transformer(DiT) 아키텍처를 채택하여 다중 해상도 이미지 생성을 지원합니다.

주요 특징

이중 언어 지원: 중국어와 영어 프롬프트를 모두 자연스럽게 이해하고 처리
Diffusion Transformer 아키텍처: 트랜스포머 기반 확산 모델로 높은 품질의 이미지 생성
다중 해상도 지원: 1024×1024부터 1280×768 등 다양한 해상도 지원
멀티턴 대화 기반 이미지 생성: MLLM(멀티모달 대형 언어 모델)을 통해 사용자와 다단계 대화하며 이미지 생성
세밀한 텍스트-이미지 일관성: 긴 텍스트 입력도 정확히 반영하는 이미지 생성
Distillation 버전 제공: 추론 속도를 50% 향상시킨 경량화 버전 별도 제공
HuggingFace diffusers 통합: diffusers 라이브러리를 통해 손쉽게 사용 가능

중국어·영어 이중 언어 지원

HunyuanDiT의 가장 두드러진 특징은 진정한 의미의 이중 언어 이해 능력입니다. 단순히 번역을 거쳐 처리하는 방식이 아니라, 중국어와 영어 각각의 언어적 뉘앙스와 문화적 맥락을 직접 이해합니다.

텍스트 인코딩에는 두 가지 인코더를 함께 사용합니다:

이중 언어 CLIP: 중국어와 영어를 동시에 처리하는 사전 학습된 CLIP 모델
다국어 T5 인코더(mT5): 긴 텍스트와 복잡한 문장 구조를 처리하는 다국어 T5 모델

두 인코더의 출력을 결합함으로써 단어 수준의 정확도뿐 아니라, 문화적 맥락과 언어 고유의 표현까지 반영한 이미지를 생성할 수 있습니다.

또한 CUP(Chinese Understanding Power) 벤치마크를 통해 중국어 이해 능력을 정량적으로 평가하였으며, 동시대 공개 모델 중 최고 수준의 성능을 기록하였습니다. 평가 지표는 다음 4가지 차원으로 구성됩니다:

평가 항목	설명
텍스트-이미지 일관성	프롬프트 내용이 이미지에 얼마나 정확히 반영되었는가
AI 아티팩트 제외	인위적인 부자연스러움 없이 자연스러운 이미지인가
주제 명확성	주요 피사체가 선명하고 명확하게 표현되었는가
미적 감각	전반적인 이미지 품질과 심미성

기술적 특징

아키텍처

HunyuanDiT는 잠재 확산 모델(Latent Diffusion Model) 기반의 Diffusion Transformer 구조를 채택합니다.

VAE(Variational Autoencoder): 이미지를 저차원 잠재 공간으로 압축 및 복원
Transformer 기반 확산 모델: UNet 대신 트랜스포머 구조를 사용하여 확산 과정을 모델링
이중 텍스트 인코더: CLIP + mT5 조합으로 언어 이해력 극대화
포지셔널 인코딩: 다중 해상도에 대응하는 특별한 위치 인코딩 방식 채택

데이터 파이프라인

모델 학습을 위해 자체 데이터 파이프라인을 구축하였으며, MLLM을 활용해 이미지 캡션을 정교하게 다듬는 과정을 통해 세밀한 언어 이해력을 확보하였습니다.

멀티턴 이미지 생성

MLLM을 통해 사용자와 자연어로 다단계 대화를 진행하면서 이미지 생성 요구사항을 점진적으로 구체화할 수 있습니다. 예를 들어 초기 이미지 생성 후 "배경을 더 밝게 해줘", "인물을 왼쪽으로 이동해줘" 같은 추가 지시를 자연어로 전달할 수 있습니다.

라이선스 및 링크

HunyuanDiT는 Tencent Hunyuan License를 따릅니다. 이 라이선스는 연구 및 개인 사용을 허용하며, 상업적 이용에 대해서는 별도 조건이 적용됩니다. 라이선스 전문은 GitHub 저장소에서 확인할 수 있습니다.

항목	링크
GitHub	Tencent-Hunyuan/HunyuanDiT
HuggingFace 모델	Tencent-Hunyuan/HunyuanDiT
diffusers 파이프라인 문서	Hunyuan-DiT — diffusers docs
논문 (arXiv)	arXiv:2405.08748
HunyuanDiT-v1.1	Tencent-Hunyuan/HunyuanDiT-v1.1

개요