snow · 2026.5.17 23:59 · 조회 2
오픈 소스 이미지 생성 모델
개요
이미지 생성 AI는 2022년 Stable Diffusion의 공개를 기점으로 오픈 소스 생태계가 폭발적으로 성장했다. 초기 U-Net 기반 아키텍처에서 출발해 2023~2024년에는 Diffusion Transformer(DiT)와 Flow Matching 기법이 주류로 자리 잡았으며, 2025년 이후에는 12B 규모의 대형 모델들이 상업적 품질에 근접하는 이미지를 생성할 수 있게 되었다.
오픈 소스 모델의 가장 큰 강점은 로컬 실행, 파인튜닝 자유도, 커뮤니티 생태계이다. Hugging Face, CivitAI, ComfyUI 등의 플랫폼을 중심으로 수천 개의 파생 모델과 워크플로가 공유되고 있으며, 개인 GPU에서도 실용적인 품질의 이미지를 생성할 수 있는 환경이 갖추어졌다.
모델 목록
| 모델 | 개발사 | 라이선스 | 페이지 |
|---|---|---|---|
| FLUX.1 | Black Forest Labs | Apache 2.0 / 비상업 | 바로가기 |
| Stable Diffusion 3.5 | Stability AI | Stability Community | 바로가기 |
| Stable Diffusion XL | Stability AI | CreativeML Open RAIL+M | 바로가기 |
| PixArt-Σ | PixArt-alpha | Apache 2.0 | 바로가기 |
| HunyuanDiT | Tencent | Tencent 오픈소스 | 바로가기 |
| Kolors | Kwai (快手) | Apache 2.0 | 바로가기 |
주요 모델 비교
| 모델 | 개발사 | 라이선스 | 기본 해상도 | 파라미터 | 주요 특징 |
|---|---|---|---|---|---|
| FLUX.1 [schnell] | Black Forest Labs | Apache 2.0 | 1024px | 12B | 1~4스텝 초고속 생성, 상업 이용 가능 |
| FLUX.1 [dev] | Black Forest Labs | 비상업 오픈웨이트 | 1024px | 12B | 고품질, 비상업 연구·개인 용도 |
| Stable Diffusion 3.5 Large | Stability AI | Stability Community | 1024px | 8B | MMDiT 아키텍처, 뛰어난 텍스트 렌더링 |
| Stable Diffusion 3.5 Medium | Stability AI | Stability Community | 1024px | ~2B | 인물 묘사 강점, 소비자 GPU 최적화 |
| SDXL 1.0 | Stability AI | CreativeML Open RAIL+M | 1024px | ~3.5B | 성숙한 파인튜닝 생태계, 태그 기반 프롬프팅 |
| PixArt-Σ | PixArt-alpha | Apache 2.0 | 1024~4096px | ~0.6B | 8GB VRAM에서 4K 생성, 효율적 학습 |
| HunyuanDiT | Tencent | Tencent 오픈소스 | 1024px | ~1.5B | 중국어 텍스트 렌더링 최강, 한중 이중언어 |
| Kolors | Kwai (快手) | Apache 2.0 | 1024px | ~2B | 포토리얼리즘 강점, 한중 이중언어 지원 |
기술 트렌드
Diffusion Transformer (DiT)
기존 U-Net 백본에서 Transformer 기반 아키텍처로의 전환이 2023~2024년을 기점으로 완료되었다. DiT는 어텐션 메커니즘을 통해 이미지 패치와 텍스트 토큰 간의 상호작용을 더 정교하게 모델링하며, 스케일 확장이 용이하다는 장점이 있다. FLUX.1(12B), SD 3.5(8B) 등 대형 모델이 모두 이 계열에 속한다.
Flow Matching
FLUX.1은 Rectified Flow(정류 흐름) 기법을 채택해 노이즈에서 이미지로의 변환 경로를 직선화했다. 이를 통해 기존 DDPM 대비 훨씬 적은 스텝(1~4회)으로 고품질 이미지를 생성할 수 있게 되었다. Stable Diffusion 3 계열도 Flow Matching을 도입해 수렴 안정성과 학습 효율을 높였다.
MMDiT (Multi-Modal Diffusion Transformer)
SD 3.5가 채택한 구조로, 이미지 토큰과 텍스트 토큰을 각기 독립된 가중치로 처리하는 더블 스트림 블록을 사용한다. 두 모달리티 간의 양방향 정보 흐름을 가능하게 해 텍스트 이해도와 이미지 정합성이 크게 향상되었다.
텍스트 이해 강화
FLUX.1은 T5-XXL(4.7B)과 CLIP 두 개의 텍스트 인코더를 병렬로 사용해 긴 자연어 프롬프트를 정밀하게 해석한다. 한중 이중언어 모델(HunyuanDiT, Kolors)은 별도의 중국어 텍스트 인코더를 추가로 탑재한다.
컨텍스트 이미지 편집
2025년 5월 Black Forest Labs가 발표한 FLUX.1 Kontext는 텍스트와 이미지를 함께 입력받아 인-컨텍스트 편집이 가능한 모델로, 레퍼런스 이미지 기반 스타일 전이나 지역 편집이 프롬프트만으로 가능해졌다.
선택 가이드
| 사용 목적 | 추천 모델 | 이유 |
|---|---|---|
| 상업 프로젝트 (빠른 속도) | FLUX.1 [schnell] | Apache 2.0, 1~4스텝 생성 |
| 고품질 개인·연구 용도 | FLUX.1 [dev] | 최상위 품질, 비상업 무료 |
| 인물·포트레이트 | SD 3.5 Medium 또는 Kolors | 인물 묘사 정교함 |
| 파인튜닝 & 커스텀 모델 | SDXL 1.0 | 가장 방대한 커뮤니티 생태계 |
| 저사양 GPU (≤8GB VRAM) | PixArt-Σ | 경량화 모델, 4K 지원 |
| 한국어·중국어 텍스트 포함 | HunyuanDiT 또는 Kolors | 이중언어 텍스트 인코더 내장 |
| 4K 초고해상도 | PixArt-Σ | 단일 패스 4K 생성 |
댓글
아직 댓글이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.