Stable Diffusion XL 소개

개요

**Stable Diffusion XL(SDXL)**은 Stability AI가 2023년 7월 26일에 공개한 오픈소스 텍스트-이미지 생성 모델이다. 기존 Stable Diffusion 1.x/2.x 대비 대폭 향상된 이미지 품질과 프롬프트 충실도를 제공하며, 기본 해상도 1024×1024에서 사실적이고 디테일한 이미지를 생성할 수 있다. 파라미터 수는 Base 모델 기준 약 35억 개로, 이전 세대 모델의 약 3배 규모다.

SDXL은 텍스트 인코더로 OpenCLIP ViT-bigG와 CLIP ViT-L 두 가지를 병렬로 사용하는 이중 텍스트 인코더 구조를 채택해 복잡한 프롬프트도 더 정확하게 해석한다. 또한 학습 시 다양한 종횡비의 이미지 버킷을 사용해 세로형·가로형 이미지에서도 균형 잡힌 결과를 제공한다.

버전 비교: Base / Refiner / Turbo

구분	모델	파라미터	특징
Base	stable-diffusion-xl-base-1.0	~3.5B	전체 구조·구성 생성, 단독 사용 가능
Refiner	stable-diffusion-xl-refiner-1.0	~6.6B	노이즈 제거 마지막 단계 전담, 디테일·텍스처 강화
Turbo	sdxl-turbo	~3.5B (증류)	ADD(Adversarial Diffusion Distillation) 기법, 단 1스텝으로 이미지 생성

Base 모델

Base는 텍스트 프롬프트를 받아 전체 구도·색감·형태를 담은 잠재 표현(latent)을 생성한다. 단독으로도 고품질 이미지를 출력할 수 있으며, 컴퓨팅 자원이 제한적인 환경에서 주로 사용된다.

Refiner 모델

Refiner는 Base가 생성한 노이즈 섞인 잠재 표현을 입력받아 마지막 디노이징 단계에 집중한다. 피부 질감, 머리카락, 의류 주름 등 미세한 디테일과 사실적 조명 표현에서 눈에 띄는 향상을 제공한다. Base → Refiner 2단계 파이프라인을 사용하면 최고 품질 결과를 얻을 수 있다.

SDXL Turbo

SDXL Turbo는 Adversarial Diffusion Distillation(ADD) 기법으로 학습된 증류 모델이다. 기존 SDXL이 20~50스텝을 필요로 하는 것과 달리 1스텝으로 고품질 이미지를 생성하며, 실시간 인터랙티브 생성에 적합하다. 라이선스는 비상업용 연구 목적으로 제한된다.

주요 특징

고해상도 기본 출력: 1024×1024 픽셀이 기본 해상도로, 512×512 기반 이전 모델 대비 4배 면적
이중 텍스트 인코더: OpenCLIP ViT-bigG + CLIP ViT-L 조합으로 긴 복합 프롬프트 이해력 향상
다양한 종횡비 지원: 세로(768×1344), 가로(1344×768) 등 다양한 비율 학습으로 실용적 활용성 증가
혼합 전문가(MoE) 파이프라인: Base와 Refiner의 역할 분리로 각 단계 최적화
향상된 텍스트 렌더링: 이전 SD 버전 대비 이미지 내 텍스트 삽입 품질 개선

광범위한 생태계

SDXL은 오픈소스 특성 덕분에 풍부한 서드파티 생태계를 보유하고 있다.

LoRA (Low-Rank Adaptation)

LoRA는 적은 파라미터만 추가 학습해 특정 화풍, 캐릭터, 스타일을 모델에 주입하는 파인튜닝 기법이다. SDXL용 수천 개의 LoRA 모델이 Civitai와 Hugging Face에 공개되어 있으며, 여러 LoRA를 가중치 조합으로 함께 적용할 수 있다.

ControlNet

ControlNet은 스케치, 깊이맵, 포즈 정보, 엣지 등을 조건으로 추가해 이미지 구조를 세밀하게 제어한다. SDXL용 ControlNet Union은 Canny, OpenPose, Depth, LineArt 등 다양한 컨트롤 유형을 단일 모델에서 지원한다.

UI 도구

도구	특징
ComfyUI	노드 기반 워크플로우, SDXL Turbo 공식 지원
AUTOMATIC1111 WebUI	전통적 UI, 방대한 확장 플러그인 생태계
diffusers 라이브러리	Hugging Face 공식 Python 라이브러리, 코드 기반 파이프라인 구성

라이선스 및 링크

항목	내용
Base/Refiner 라이선스	CreativeML Open RAIL+M — 상업적 이용 허용, 일부 조건 있음
Turbo 라이선스	Stability AI Non-Commercial Research Community Licence — 비상업 연구 한정
개발사	Stability AI
Base 모델 (HF)	stabilityai/stable-diffusion-xl-base-1.0
Refiner 모델 (HF)	stabilityai/stable-diffusion-xl-refiner-1.0
공식 발표	Announcing SDXL 1.0 — Stability AI
diffusers 가이드	Hugging Face SDXL 문서

개요