snow · 2026.5.17 23:59 · 조회 2

오픈 소스 이미지 생성 모델

개요

이미지 생성 AI는 2022년 Stable Diffusion의 공개를 기점으로 오픈 소스 생태계가 폭발적으로 성장했다. 초기 U-Net 기반 아키텍처에서 출발해 2023~2024년에는 Diffusion Transformer(DiT)와 Flow Matching 기법이 주류로 자리 잡았으며, 2025년 이후에는 12B 규모의 대형 모델들이 상업적 품질에 근접하는 이미지를 생성할 수 있게 되었다.

오픈 소스 모델의 가장 큰 강점은 로컬 실행, 파인튜닝 자유도, 커뮤니티 생태계이다. Hugging Face, CivitAI, ComfyUI 등의 플랫폼을 중심으로 수천 개의 파생 모델과 워크플로가 공유되고 있으며, 개인 GPU에서도 실용적인 품질의 이미지를 생성할 수 있는 환경이 갖추어졌다.


모델 목록

모델개발사라이선스페이지
FLUX.1Black Forest LabsApache 2.0 / 비상업바로가기
Stable Diffusion 3.5Stability AIStability Community바로가기
Stable Diffusion XLStability AICreativeML Open RAIL+M바로가기
PixArt-ΣPixArt-alphaApache 2.0바로가기
HunyuanDiTTencentTencent 오픈소스바로가기
KolorsKwai (快手)Apache 2.0바로가기

주요 모델 비교

모델개발사라이선스기본 해상도파라미터주요 특징
FLUX.1 [schnell]Black Forest LabsApache 2.01024px12B1~4스텝 초고속 생성, 상업 이용 가능
FLUX.1 [dev]Black Forest Labs비상업 오픈웨이트1024px12B고품질, 비상업 연구·개인 용도
Stable Diffusion 3.5 LargeStability AIStability Community1024px8BMMDiT 아키텍처, 뛰어난 텍스트 렌더링
Stable Diffusion 3.5 MediumStability AIStability Community1024px~2B인물 묘사 강점, 소비자 GPU 최적화
SDXL 1.0Stability AICreativeML Open RAIL+M1024px~3.5B성숙한 파인튜닝 생태계, 태그 기반 프롬프팅
PixArt-ΣPixArt-alphaApache 2.01024~4096px~0.6B8GB VRAM에서 4K 생성, 효율적 학습
HunyuanDiTTencentTencent 오픈소스1024px~1.5B중국어 텍스트 렌더링 최강, 한중 이중언어
KolorsKwai (快手)Apache 2.01024px~2B포토리얼리즘 강점, 한중 이중언어 지원

기술 트렌드

Diffusion Transformer (DiT)

기존 U-Net 백본에서 Transformer 기반 아키텍처로의 전환이 2023~2024년을 기점으로 완료되었다. DiT는 어텐션 메커니즘을 통해 이미지 패치와 텍스트 토큰 간의 상호작용을 더 정교하게 모델링하며, 스케일 확장이 용이하다는 장점이 있다. FLUX.1(12B), SD 3.5(8B) 등 대형 모델이 모두 이 계열에 속한다.

Flow Matching

FLUX.1은 Rectified Flow(정류 흐름) 기법을 채택해 노이즈에서 이미지로의 변환 경로를 직선화했다. 이를 통해 기존 DDPM 대비 훨씬 적은 스텝(1~4회)으로 고품질 이미지를 생성할 수 있게 되었다. Stable Diffusion 3 계열도 Flow Matching을 도입해 수렴 안정성과 학습 효율을 높였다.

MMDiT (Multi-Modal Diffusion Transformer)

SD 3.5가 채택한 구조로, 이미지 토큰과 텍스트 토큰을 각기 독립된 가중치로 처리하는 더블 스트림 블록을 사용한다. 두 모달리티 간의 양방향 정보 흐름을 가능하게 해 텍스트 이해도와 이미지 정합성이 크게 향상되었다.

텍스트 이해 강화

FLUX.1은 T5-XXL(4.7B)과 CLIP 두 개의 텍스트 인코더를 병렬로 사용해 긴 자연어 프롬프트를 정밀하게 해석한다. 한중 이중언어 모델(HunyuanDiT, Kolors)은 별도의 중국어 텍스트 인코더를 추가로 탑재한다.

컨텍스트 이미지 편집

2025년 5월 Black Forest Labs가 발표한 FLUX.1 Kontext는 텍스트와 이미지를 함께 입력받아 인-컨텍스트 편집이 가능한 모델로, 레퍼런스 이미지 기반 스타일 전이나 지역 편집이 프롬프트만으로 가능해졌다.


선택 가이드

사용 목적추천 모델이유
상업 프로젝트 (빠른 속도)FLUX.1 [schnell]Apache 2.0, 1~4스텝 생성
고품질 개인·연구 용도FLUX.1 [dev]최상위 품질, 비상업 무료
인물·포트레이트SD 3.5 Medium 또는 Kolors인물 묘사 정교함
파인튜닝 & 커스텀 모델SDXL 1.0가장 방대한 커뮤니티 생태계
저사양 GPU (≤8GB VRAM)PixArt-Σ경량화 모델, 4K 지원
한국어·중국어 텍스트 포함HunyuanDiT 또는 Kolors이중언어 텍스트 인코더 내장
4K 초고해상도PixArt-Σ단일 패스 4K 생성

댓글

아직 댓글이 없습니다.

댓글을 작성하려면 로그인이 필요합니다.