Kolors 설치 및 사용 가이드 (Mac)

개요

이 가이드는 Apple Silicon(M1/M2/M3/M4) Mac에서 HuggingFace Diffusers를 통해 Kolors 이미지 생성 모델을 설치하고 실행하는 방법을 안내한다. Kolors는 CUDA(NVIDIA GPU)를 기본 타깃으로 개발되었지만, PyTorch의 MPS(Metal Performance Shaders) 백엔드를 이용하면 Apple Silicon에서도 GPU 가속으로 이미지를 생성할 수 있다.

사전 요구사항

항목	권장 사양
Mac 칩	Apple Silicon (M1 이상 권장)
macOS	12.3 Monterey 이상 (MPS 지원)
Python	3.9 ~ 3.11
메모리	16GB 이상 (32GB 권장)
저장 공간	20GB 이상 여유 공간 (모델 가중치 약 14GB)

Intel Mac은 MPS를 지원하지 않으므로 CPU 모드로만 동작한다. 속도가 매우 느리므로 권장하지 않는다.

설치 방법 (Diffusers)

1단계: 가상 환경 생성

# conda 사용 시
conda create -n kolors python=3.10
conda activate kolors

# venv 사용 시
python3 -m venv kolors-env
source kolors-env/bin/activate

2단계: PyTorch 설치 (MPS 지원 버전)

Apple Silicon용 PyTorch는 pip으로 설치한다. MPS 백엔드는 PyTorch 1.12부터 공식 지원된다.

pip install torch torchvision torchaudio

MPS 사용 가능 여부를 확인한다:

import torch
print(torch.backends.mps.is_available())   # True여야 함
print(torch.backends.mps.is_built())       # True여야 함

3단계: Diffusers 및 의존성 설치

pip install diffusers transformers accelerate sentencepiece

sentencepiece는 ChatGLM 토크나이저에 필요하다.

4단계: 모델 가중치 다운로드

최초 실행 시 HuggingFace Hub에서 자동으로 다운로드된다. 수동으로 사전에 다운로드하려면:

pip install huggingface_hub
huggingface-cli download Kwai-Kolors/Kolors-diffusers --local-dir ./Kolors-diffusers

Apple Silicon MPS 설정

Kolors는 기본적으로 CUDA("cuda") 디바이스를 전제하고 있다. Mac에서 실행하려면 디바이스를 "mps"로 변경해야 하며, 데이터 타입도 torch.float16 대신 torch.float32를 사용해야 한다.

import torch

# MPS 사용 가능 여부에 따라 디바이스 자동 선택
if torch.backends.mps.is_available():
    device = "mps"
    dtype = torch.float32   # MPS는 float16 지원이 불완전할 수 있음
elif torch.cuda.is_available():
    device = "cuda"
    dtype = torch.float16
else:
    device = "cpu"
    dtype = torch.float32

print(f"사용 디바이스: {device}")

기본 이미지 생성

영어 프롬프트

import torch
from diffusers import KolorsPipeline

pipe = KolorsPipeline.from_pretrained(
    "Kwai-Kolors/Kolors-diffusers",
    torch_dtype=torch.float32,   # MPS에서는 float32 권장
)
pipe = pipe.to("mps")

prompt = "A portrait of a young woman with soft lighting, photorealistic, 8k, high quality"
negative_prompt = "blurry, low quality, distorted, deformed"

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=6.5,
    num_inference_steps=25,
    height=1024,
    width=1024,
).images[0]

image.save("output.png")
print("이미지가 output.png로 저장되었습니다.")

스케줄러 변경으로 속도 향상

DPMSolver 스케줄러를 사용하면 25~30 스텝으로도 품질 높은 이미지를 얻을 수 있다:

import torch
from diffusers import KolorsPipeline, DPMSolverMultistepScheduler

pipe = KolorsPipeline.from_pretrained(
    "Kwai-Kolors/Kolors-diffusers",
    torch_dtype=torch.float32,
)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(
    pipe.scheduler.config,
    use_karras_sigmas=True
)
pipe = pipe.to("mps")

image = pipe(
    prompt="a ladybug, macro photography, bokeh, high quality, cinematic",
    guidance_scale=6.5,
    num_inference_steps=25,
).images[0]

image.save("ladybug.png")

한국어·중국어 프롬프트 팁

Kolors는 ChatGLM3-6B 덕분에 중국어 프롬프트를 매우 잘 처리한다. 한국어 프롬프트는 직접 지원하지 않으므로, 최상의 결과를 위해 영어 또는 중국어로 작성하는 것을 권장한다.

# 중국어 프롬프트 예시 (사실적인 인물 사진)
prompt_zh = "一位年轻女性的肖像，柔和的自然光线，皮肤细腻，高质量，写实风格，8k"

# 영어 프롬프트 예시 (동일 의미)
prompt_en = "A portrait of a young woman, soft natural lighting, detailed skin texture, high quality, photorealistic, 8k"

# 중국어 이미지 내 텍스트 렌더링
prompt_text = '一只可爱的猫咪，拿着写着"你好"的牌子，高质量'

프롬프트 작성 팁:

구체적인 조명 조건(soft lighting, golden hour 등)을 명시하면 인물 사진 품질이 높아진다.
high quality, photorealistic, 8k 등의 품질 태그를 추가하면 효과적이다.
네거티브 프롬프트에는 blurry, distorted, low quality, extra limbs를 기본으로 포함한다.

파라미터 조절

파라미터	기본값	설명
`guidance_scale`	6.5	높을수록 프롬프트에 충실하지만 다양성이 줄어듦. 5.0~8.0 권장
`num_inference_steps`	25~50	스텝이 많을수록 품질 향상, 속도 저하. Mac에서는 25~30 권장
`height` / `width`	1024	기본 해상도. 메모리가 부족하면 768로 줄인다
`negative_prompt`	-	원하지 않는 요소를 텍스트로 지정
`num_images_per_prompt`	1	한 번에 생성할 이미지 수. Mac에서는 1 권장

# 보수적인 Mac 설정 예시 (메모리 절약)
image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=6.5,
    num_inference_steps=25,
    height=768,
    width=768,
    num_images_per_prompt=1,
).images[0]

메모리 최적화

Apple Silicon의 통합 메모리(Unified Memory) 특성상 VRAM과 RAM을 함께 사용한다. 메모리가 부족한 경우 다음 방법을 적용한다.

attention slicing 활성화

pipe.enable_attention_slicing()

VAE 슬라이싱 및 타일링

pipe.enable_vae_slicing()   # 메모리 절약
pipe.enable_vae_tiling()    # 고해상도 이미지 생성 시

CPU 오프로드 (16GB 이하 메모리)

# 모델 일부를 CPU로 오프로드하여 메모리 사용량 절감
pipe.enable_model_cpu_offload()
# 참고: cpu_offload 사용 시 .to("mps") 호출 불필요

전체 메모리 최적화 예시

import torch
from diffusers import KolorsPipeline

pipe = KolorsPipeline.from_pretrained(
    "Kwai-Kolors/Kolors-diffusers",
    torch_dtype=torch.float32,
)

# 메모리 최적화 옵션 적용
pipe.enable_attention_slicing()
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()   # 이 옵션 사용 시 .to("mps") 생략

image = pipe(
    prompt="a beautiful sunset over the ocean, dramatic clouds, photorealistic",
    negative_prompt="blurry, low quality",
    guidance_scale=6.5,
    num_inference_steps=25,
    height=768,
    width=768,
).images[0]

image.save("sunset.png")

자주 발생하는 오류 해결

MPS 관련 오류: `NotImplementedError: The operator X is not currently implemented for the MPS device`

일부 PyTorch 연산이 MPS에서 지원되지 않는 경우 발생한다.

# 환경 변수로 미지원 연산을 CPU로 폴백
import os
os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

# 또는 터미널에서 실행 전 설정
# export PYTORCH_ENABLE_MPS_FALLBACK=1

메모리 부족 오류: `MPS out of memory`

# 1. 이미지 해상도 줄이기 (1024 → 768)
# 2. attention slicing 활성화
pipe.enable_attention_slicing(1)  # 가장 공격적인 슬라이싱
# 3. 다른 앱 종료 후 Python 재시작

모델 로딩 오류: `ChatGLMTokenizer` 관련

# sentencepiece 재설치
pip install --upgrade sentencepiece transformers

느린 속도 문제

Mac에서 25 스텝 기준 약 5~15분이 소요될 수 있다 (M 칩 세대 및 메모리에 따라 다름). 속도를 높이려면:

num_inference_steps를 20~25로 줄인다.
해상도를 512~768로 낮춘다.
DPMSolver 스케줄러를 사용한다 (use_karras_sigmas=True).

`float16` 관련 NaN 또는 검은 이미지 출력

# MPS에서 float16 사용 시 NaN이 발생할 수 있음
# float32로 변경
pipe = KolorsPipeline.from_pretrained(
    "Kwai-Kolors/Kolors-diffusers",
    torch_dtype=torch.float32,   # float16 → float32
)

참고 링크

GitHub - Kwai-Kolors/Kolors — 공식 저장소
HuggingFace - Kolors-diffusers — 모델 가중치
HuggingFace Diffusers - Kolors 파이프라인 문서 — API 레퍼런스
HuggingFace Diffusers - MPS 최적화 가이드 — Apple Silicon 최적화
Kolors 기술 보고서 (PDF) — 모델 설계 상세

개요