오픈 소스 이미지 생성 모델

개요

이미지 생성 AI는 2022년 Stable Diffusion의 공개를 기점으로 오픈 소스 생태계가 폭발적으로 성장했다. 초기 U-Net 기반 아키텍처에서 출발해 2023~2024년에는 Diffusion Transformer(DiT)와 Flow Matching 기법이 주류로 자리 잡았으며, 2025년 이후에는 12B 규모의 대형 모델들이 상업적 품질에 근접하는 이미지를 생성할 수 있게 되었다.

오픈 소스 모델의 가장 큰 강점은 로컬 실행, 파인튜닝 자유도, 커뮤니티 생태계이다. Hugging Face, CivitAI, ComfyUI 등의 플랫폼을 중심으로 수천 개의 파생 모델과 워크플로가 공유되고 있으며, 개인 GPU에서도 실용적인 품질의 이미지를 생성할 수 있는 환경이 갖추어졌다.

모델 목록

모델	개발사	라이선스	페이지
FLUX.1	Black Forest Labs	Apache 2.0 / 비상업	바로가기
Stable Diffusion 3.5	Stability AI	Stability Community	바로가기
Stable Diffusion XL	Stability AI	CreativeML Open RAIL+M	바로가기
PixArt-Σ	PixArt-alpha	Apache 2.0	바로가기
HunyuanDiT	Tencent	Tencent 오픈소스	바로가기
Kolors	Kwai (快手)	Apache 2.0	바로가기

주요 모델 비교

모델	개발사	라이선스	기본 해상도	파라미터	주요 특징
FLUX.1 [schnell]	Black Forest Labs	Apache 2.0	1024px	12B	1~4스텝 초고속 생성, 상업 이용 가능
FLUX.1 [dev]	Black Forest Labs	비상업 오픈웨이트	1024px	12B	고품질, 비상업 연구·개인 용도
Stable Diffusion 3.5 Large	Stability AI	Stability Community	1024px	8B	MMDiT 아키텍처, 뛰어난 텍스트 렌더링
Stable Diffusion 3.5 Medium	Stability AI	Stability Community	1024px	~2B	인물 묘사 강점, 소비자 GPU 최적화
SDXL 1.0	Stability AI	CreativeML Open RAIL+M	1024px	~3.5B	성숙한 파인튜닝 생태계, 태그 기반 프롬프팅
PixArt-Σ	PixArt-alpha	Apache 2.0	1024~4096px	~0.6B	8GB VRAM에서 4K 생성, 효율적 학습
HunyuanDiT	Tencent	Tencent 오픈소스	1024px	~1.5B	중국어 텍스트 렌더링 최강, 한중 이중언어
Kolors	Kwai (快手)	Apache 2.0	1024px	~2B	포토리얼리즘 강점, 한중 이중언어 지원

기술 트렌드

Diffusion Transformer (DiT)

기존 U-Net 백본에서 Transformer 기반 아키텍처로의 전환이 2023~2024년을 기점으로 완료되었다. DiT는 어텐션 메커니즘을 통해 이미지 패치와 텍스트 토큰 간의 상호작용을 더 정교하게 모델링하며, 스케일 확장이 용이하다는 장점이 있다. FLUX.1(12B), SD 3.5(8B) 등 대형 모델이 모두 이 계열에 속한다.

Flow Matching

FLUX.1은 Rectified Flow(정류 흐름) 기법을 채택해 노이즈에서 이미지로의 변환 경로를 직선화했다. 이를 통해 기존 DDPM 대비 훨씬 적은 스텝(1~4회)으로 고품질 이미지를 생성할 수 있게 되었다. Stable Diffusion 3 계열도 Flow Matching을 도입해 수렴 안정성과 학습 효율을 높였다.

MMDiT (Multi-Modal Diffusion Transformer)

SD 3.5가 채택한 구조로, 이미지 토큰과 텍스트 토큰을 각기 독립된 가중치로 처리하는 더블 스트림 블록을 사용한다. 두 모달리티 간의 양방향 정보 흐름을 가능하게 해 텍스트 이해도와 이미지 정합성이 크게 향상되었다.

텍스트 이해 강화

FLUX.1은 T5-XXL(4.7B)과 CLIP 두 개의 텍스트 인코더를 병렬로 사용해 긴 자연어 프롬프트를 정밀하게 해석한다. 한중 이중언어 모델(HunyuanDiT, Kolors)은 별도의 중국어 텍스트 인코더를 추가로 탑재한다.

컨텍스트 이미지 편집

2025년 5월 Black Forest Labs가 발표한 FLUX.1 Kontext는 텍스트와 이미지를 함께 입력받아 인-컨텍스트 편집이 가능한 모델로, 레퍼런스 이미지 기반 스타일 전이나 지역 편집이 프롬프트만으로 가능해졌다.

선택 가이드

사용 목적	추천 모델	이유
상업 프로젝트 (빠른 속도)	FLUX.1 [schnell]	Apache 2.0, 1~4스텝 생성
고품질 개인·연구 용도	FLUX.1 [dev]	최상위 품질, 비상업 무료
인물·포트레이트	SD 3.5 Medium 또는 Kolors	인물 묘사 정교함
파인튜닝 & 커스텀 모델	SDXL 1.0	가장 방대한 커뮤니티 생태계
저사양 GPU (≤8GB VRAM)	PixArt-Σ	경량화 모델, 4K 지원
한국어·중국어 텍스트 포함	HunyuanDiT 또는 Kolors	이중언어 텍스트 인코더 내장
4K 초고해상도	PixArt-Σ	단일 패스 4K 생성

개요