snow · 2026.5.18 00:02 · 조회 3
Kolors 소개
개요
Kolors(可图)는 쾌수(Kuaishou, 快手)의 Kolors 팀이 개발한 대규모 잠재 확산(Latent Diffusion) 기반 텍스트-이미지 생성 모델이다. 수십억 쌍의 텍스트-이미지 데이터로 학습되었으며, 중국어와 영어를 모두 지원하는 이중 언어 모델로서 사실적인 인물 사진 생성에 특히 강점을 보인다. 2024년 7월 공개되었으며 Apache 2.0 라이선스(코드 기준)로 배포된다.
모델명의 "可图"는 "아름다운 그림을 만들 수 있다"는 의미를 담고 있으며, GitHub 저장소는 Kwai-Kolors/Kolors에서 확인할 수 있다.
주요 특징
- 이중 언어 지원: 중국어와 영어 프롬프트를 모두 자연스럽게 처리하며, 중국어 특화 콘텐츠 생성에서 특히 뛰어난 성능을 발휘한다.
- 사실적인 인물 사진: 인물의 피부 질감, 표정, 배경의 디테일이 정교하게 표현되어 포토리얼리즘 분야에서 높은 평가를 받는다.
- 복잡한 의미 이해: 여러 객체가 등장하는 복잡한 텍스트 설명도 정확하게 해석하여 이미지로 변환한다.
- 텍스트 렌더링: 생성된 이미지 내에 한자 및 영문 텍스트를 정확하게 렌더링하는 능력을 갖췄다.
- 긴 컨텍스트: 최대 256 토큰의 프롬프트를 처리할 수 있어 상세한 묘사가 가능하다.
- HuggingFace Diffusers 통합:
KolorsPipeline으로 간편하게 사용할 수 있다.
ChatGLM 텍스트 인코더
Kolors의 핵심 차별점은 텍스트 인코더로 ChatGLM3-6B를 사용한다는 점이다. 대부분의 이미지 생성 모델(예: Stable Diffusion 3, Imagen)이 T5 인코더를 사용하는 것과 달리, Kolors는 GLM(General Language Model) 계열의 ChatGLM3-6B를 채택하였다.
ChatGLM3-6B는 THUDM(清华大学)이 개발한 이중 언어 대형 언어 모델로, 다음과 같은 장점을 제공한다:
- 중국어 이해 능력 우수: 한자의 미묘한 뉘앙스와 한국어·중국어 문화적 맥락을 깊이 있게 이해한다.
- 멀티모달 재캡셔닝: 학습 데이터를 멀티모달 LLM으로 재캡셔닝하여 세밀한 텍스트 이해를 강화하였다.
- 풍부한 임베딩: 256 토큰의 긴 시퀀스 처리로 복잡한 장면 묘사를 임베딩에 충실히 담아낸다.
이 설계 덕분에 Kolors는 중국어 프롬프트에서 경쟁 모델 대비 월등히 높은 품질의 이미지를 생성하며, 영어 프롬프트에서도 DALL-E 3, Midjourney v6 수준에 근접한 성능을 보인다.
성능 평가
FlagEval 멀티모달 텍스트-이미지 리더보드에서 2위를 기록하였으며, 중국어·영어 주관적 품질 평가 항목에서는 1위를 달성하였다. 50명의 이미지 전문가를 대상으로 한 인간 평가에서 전반적 만족도 3.59/5, 시각적 매력 3.99/5를 기록하며 오픈소스 모델 중 최고 수준임을 입증하였다.
활용 사례
| 분야 | 설명 |
|---|---|
| 광고·마케팅 | 중국어 슬로건이 포함된 제품 이미지, 포스터 자동 생성 |
| 패션 | Virtual Try-On 파생 모델로 의상 착용 시뮬레이션 |
| 초상화 | IP-Adapter-FaceID-Plus로 특정 인물의 정체성을 유지한 이미지 생성 |
| 콘텐츠 크리에이터 | LoRA 파인튜닝으로 캐릭터·스타일 커스터마이징 |
| 인페인팅 | 기존 이미지의 특정 영역을 수정·보완 |
파생 모델
Kolors를 기반으로 다양한 확장 모델이 개발되었다:
- Kolors-IP-Adapter-Plus: 참조 이미지를 기반으로 일관된 스타일·피사체를 유지하며 이미지를 생성한다.
- Kolors-IP-Adapter-FaceID-Plus: 특정 인물의 얼굴 정체성을 보존하면서 다양한 스타일의 초상화를 생성한다.
- Kolors-ControlNet: Canny 엣지, 깊이 맵, 포즈 정보를 조건으로 이미지의 공간적 구조를 정밀하게 제어한다.
- Kolors-Inpainting: 이미지의 특정 영역을 마스킹하여 원하는 내용으로 자연스럽게 교체한다.
- Kolors-Virtual-Try-On: 패션 분야에 특화된 가상 착용 모델로, 의류 쇼핑몰 등에서 활용된다.
- DreamBooth-LoRA: 소량의 이미지로 새로운 개념(캐릭터, 스타일 등)을 학습시켜 개인화된 이미지를 생성한다.
라이선스 및 링크
| 항목 | 내용 |
|---|---|
| 코드 라이선스 | Apache 2.0 |
| 모델 가중치(학술용) | 완전 공개 |
| 모델 가중치(상업용) | 별도 등록 필요 (kwai-kolors@kuaishou.com) |
| GitHub | Kwai-Kolors/Kolors |
| HuggingFace | Kwai-Kolors/Kolors-diffusers |
| 기술 보고서 | Kolors Paper (PDF) |
| Diffusers 문서 | HuggingFace Diffusers - Kolors |
월간 활성 사용자 3억 명을 초과하는 상업적 사용의 경우 추가 라이선스 협의가 필요하다.
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.