Stable Diffusion 3.5 소개

개요

Stable Diffusion 3.5(SD 3.5)는 Stability AI가 2024년 10월 출시한 텍스트-이미지 생성 모델 시리즈다. 이전 세대인 SD 3.0 Medium이 품질 기준을 충족하지 못했다는 자체 평가를 반영해 아키텍처와 학습 방식을 전면 개선했다. SD 3.5는 프롬프트 이해력, 이미지 다양성, 타이포그래피 정확도, 세밀한 디테일 표현 등에서 시장 최고 수준의 성능을 목표로 개발되었다.

세 가지 모델 변형으로 구성되어 있어 고품질 전문 작업부터 소비자 하드웨어에서의 빠른 생성까지 다양한 용도에 맞게 선택할 수 있다.

버전별 비교

항목	SD 3.5 Large	SD 3.5 Large Turbo	SD 3.5 Medium
파라미터 수	8.1B	8.1B (증류 버전)	2.5B
생성 스텝	28~50	4	40
최대 해상도	1 메가픽셀	1 메가픽셀	0.25~2 메가픽셀
VRAM 요구량	높음 (24GB+ 권장)	높음 (24GB+ 권장)	9.9 GB
속도	보통	매우 빠름	보통
특징	최고 품질	속도와 품질 균형	소비자 하드웨어 최적화
주 사용 목적	전문 작업, 파인튜닝	빠른 프로토타입, 실시간	개인 PC, 커스터마이징

주요 특징

높은 프롬프트 이해력: SD 3.5 Large는 시장 최고 수준의 프롬프트 순응도를 갖추고 있어 복잡한 설명도 정확하게 이미지로 변환한다.

다양한 시각적 스타일: 3D 렌더링, 실사 사진, 회화, 선화 등 다양한 스타일을 별도 파인튜닝 없이 지원한다.

타이포그래피 정확도: 이미지 내 텍스트 렌더링 능력이 이전 버전 대비 크게 향상되었다.

다양성 및 포용성: 광범위한 프롬프트 없이도 인물의 다양한 표현을 자연스럽게 생성한다.

파인튜닝 친화성: Query-Key Normalization 도입으로 학습 안정성이 높아져 LoRA 등 파인튜닝이 용이하다.

오픈 소스 가중치: HuggingFace를 통해 모델 가중치를 직접 다운로드하여 로컬 실행이 가능하다.

MMDiT 아키텍처

SD 3.5는 Multimodal Diffusion Transformer(MMDiT) 아키텍처를 기반으로 한다. 기존 UNet 기반 확산 모델(SDXL 등)과 달리 트랜스포머 블록이 이미지 잠재 표현과 텍스트 조건을 동등하게 처리하는 구조다.

MMDiT-X: Medium 모델에 적용된 개선 아키텍처로, 트랜스포머 첫 13개 레이어에 Self-Attention 모듈을 추가했다. 이를 통해 다양한 해상도에서 일관된 이미지 생성이 가능하다.
Query-Key Normalization: 트랜스포머 블록에 QK Norm을 통합하여 학습 과정을 안정화하고, 다운스트림 파인튜닝을 간소화한다.
Adversarial Diffusion Distillation(ADD): Large Turbo에 적용된 기법으로, 단 4스텝으로 고품질 이미지를 생성할 수 있도록 모델을 증류한다.
텍스트 인코더: OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl 세 가지 텍스트 인코더를 결합하여 풍부한 언어 이해 능력을 확보한다.

SDXL 대비 SD 3.5는 더 긴 프롬프트와 복잡한 구성을 처리하고, 멀티 오브젝트 장면에서 세부 요소를 훨씬 정확하게 배치한다.

라이선스 주의사항

SD 3.5는 Stability AI Community License를 따른다.

무료 사용: 비상업적 연구/개인 프로젝트 및 연간 매출 100만 달러(USD) 미만 기업/개인의 상업적 사용
엔터프라이즈 라이선스 필요: 연간 매출 100만 달러 이상 조직

상업적 활용 전 Stability AI 라이선스 페이지에서 최신 조건을 반드시 확인해야 한다.

개요

버전별 비교

주요 특징

MMDiT 아키텍처

라이선스 주의사항

관련 링크

댓글