Kolors 소개

개요

Kolors(可图)는 쾌수(Kuaishou, 快手)의 Kolors 팀이 개발한 대규모 잠재 확산(Latent Diffusion) 기반 텍스트-이미지 생성 모델이다. 수십억 쌍의 텍스트-이미지 데이터로 학습되었으며, 중국어와 영어를 모두 지원하는 이중 언어 모델로서 사실적인 인물 사진 생성에 특히 강점을 보인다. 2024년 7월 공개되었으며 Apache 2.0 라이선스(코드 기준)로 배포된다.

모델명의 "可图"는 "아름다운 그림을 만들 수 있다"는 의미를 담고 있으며, GitHub 저장소는 Kwai-Kolors/Kolors에서 확인할 수 있다.

주요 특징

이중 언어 지원: 중국어와 영어 프롬프트를 모두 자연스럽게 처리하며, 중국어 특화 콘텐츠 생성에서 특히 뛰어난 성능을 발휘한다.
사실적인 인물 사진: 인물의 피부 질감, 표정, 배경의 디테일이 정교하게 표현되어 포토리얼리즘 분야에서 높은 평가를 받는다.
복잡한 의미 이해: 여러 객체가 등장하는 복잡한 텍스트 설명도 정확하게 해석하여 이미지로 변환한다.
텍스트 렌더링: 생성된 이미지 내에 한자 및 영문 텍스트를 정확하게 렌더링하는 능력을 갖췄다.
긴 컨텍스트: 최대 256 토큰의 프롬프트를 처리할 수 있어 상세한 묘사가 가능하다.
HuggingFace Diffusers 통합: KolorsPipeline으로 간편하게 사용할 수 있다.

ChatGLM 텍스트 인코더

Kolors의 핵심 차별점은 텍스트 인코더로 ChatGLM3-6B를 사용한다는 점이다. 대부분의 이미지 생성 모델(예: Stable Diffusion 3, Imagen)이 T5 인코더를 사용하는 것과 달리, Kolors는 GLM(General Language Model) 계열의 ChatGLM3-6B를 채택하였다.

ChatGLM3-6B는 THUDM(清华大学)이 개발한 이중 언어 대형 언어 모델로, 다음과 같은 장점을 제공한다:

중국어 이해 능력 우수: 한자의 미묘한 뉘앙스와 한국어·중국어 문화적 맥락을 깊이 있게 이해한다.
멀티모달 재캡셔닝: 학습 데이터를 멀티모달 LLM으로 재캡셔닝하여 세밀한 텍스트 이해를 강화하였다.
풍부한 임베딩: 256 토큰의 긴 시퀀스 처리로 복잡한 장면 묘사를 임베딩에 충실히 담아낸다.

이 설계 덕분에 Kolors는 중국어 프롬프트에서 경쟁 모델 대비 월등히 높은 품질의 이미지를 생성하며, 영어 프롬프트에서도 DALL-E 3, Midjourney v6 수준에 근접한 성능을 보인다.

성능 평가

FlagEval 멀티모달 텍스트-이미지 리더보드에서 2위를 기록하였으며, 중국어·영어 주관적 품질 평가 항목에서는 1위를 달성하였다. 50명의 이미지 전문가를 대상으로 한 인간 평가에서 전반적 만족도 3.59/5, 시각적 매력 3.99/5를 기록하며 오픈소스 모델 중 최고 수준임을 입증하였다.

활용 사례

분야	설명
광고·마케팅	중국어 슬로건이 포함된 제품 이미지, 포스터 자동 생성
패션	Virtual Try-On 파생 모델로 의상 착용 시뮬레이션
초상화	IP-Adapter-FaceID-Plus로 특정 인물의 정체성을 유지한 이미지 생성
콘텐츠 크리에이터	LoRA 파인튜닝으로 캐릭터·스타일 커스터마이징
인페인팅	기존 이미지의 특정 영역을 수정·보완

파생 모델

Kolors를 기반으로 다양한 확장 모델이 개발되었다:

Kolors-IP-Adapter-Plus: 참조 이미지를 기반으로 일관된 스타일·피사체를 유지하며 이미지를 생성한다.
Kolors-IP-Adapter-FaceID-Plus: 특정 인물의 얼굴 정체성을 보존하면서 다양한 스타일의 초상화를 생성한다.
Kolors-ControlNet: Canny 엣지, 깊이 맵, 포즈 정보를 조건으로 이미지의 공간적 구조를 정밀하게 제어한다.
Kolors-Inpainting: 이미지의 특정 영역을 마스킹하여 원하는 내용으로 자연스럽게 교체한다.
Kolors-Virtual-Try-On: 패션 분야에 특화된 가상 착용 모델로, 의류 쇼핑몰 등에서 활용된다.
DreamBooth-LoRA: 소량의 이미지로 새로운 개념(캐릭터, 스타일 등)을 학습시켜 개인화된 이미지를 생성한다.

라이선스 및 링크

항목	내용
코드 라이선스	Apache 2.0
모델 가중치(학술용)	완전 공개
모델 가중치(상업용)	별도 등록 필요 (kwai-kolors@kuaishou.com)
GitHub	Kwai-Kolors/Kolors
HuggingFace	Kwai-Kolors/Kolors-diffusers
기술 보고서	Kolors Paper (PDF)
Diffusers 문서	HuggingFace Diffusers - Kolors

월간 활성 사용자 3억 명을 초과하는 상업적 사용의 경우 추가 라이선스 협의가 필요하다.

개요