FLUX.1 소개

개요

FLUX.1은 Black Forest Labs가 2024년 8월에 공개한 텍스트-이미지 생성 모델이다. Black Forest Labs는 Stable Diffusion의 핵심 연구자들이 설립한 회사로, FLUX.1은 그들의 첫 번째 주력 모델이다. 약 120억(12B) 개의 파라미터를 가진 이 모델은 뛰어난 프롬프트 이해력, 텍스트 렌더링 능력, 이미지 품질로 출시 직후부터 주목을 받았다.

공개 벤치마크에서 FLUX.1 [pro]와 [dev]는 Midjourney v6, DALL-E 3, Stable Diffusion 3 등 주요 경쟁 모델들을 제치고 각각 1위, 2위를 기록했다(Elo 점수 기준).

버전별 비교

항목	FLUX.1 [schnell]	FLUX.1 [dev]	FLUX.1 [pro]
라이선스	Apache 2.0 (상업용 가능)	비상업용 (연구·개인)	상업용 (API 전용)
제공 형태	HuggingFace 다운로드	HuggingFace 다운로드	API
권장 스텝 수	1~4 스텝	20~50 스텝	-
이미지 품질	빠름, 품질 약간 낮음	높음	최고
속도	매우 빠름	보통	API 제공
주요 용도	로컬 실험, 개인 프로젝트	연구, 고품질 로컬 생성	프로덕션, 상업 서비스
파라미터 수	12B	12B	비공개

FLUX.1 [schnell]

latent adversarial diffusion distillation 기법으로 학습되어 1~4 스텝만으로 고품질 이미지를 생성한다. Apache 2.0 라이선스로 개인 및 상업적 용도로 자유롭게 사용 가능하며, 로컬 실행을 위한 가장 실용적인 선택지다.

FLUX.1 [dev]

FLUX.1 [pro]로부터 직접 knowledge distillation된 모델로, pro 수준의 품질과 프롬프트 이해력을 갖추면서도 추론 효율이 개선되었다. 비상업용 라이선스이므로 개인 학습, 연구, 비영리 프로젝트에 적합하다.

FLUX.1 [pro]

Black Forest Labs API를 통해서만 이용 가능한 플래그십 모델이다. 가장 정밀한 디테일 표현과 명령 이해력을 제공하며, 상업적 프로덕션 환경에 적합하다.

주요 특징

탁월한 텍스트 렌더링

이미지 내에 텍스트를 정확하게 렌더링하는 능력이 이전 세대 모델 대비 크게 향상되었다. 간판, 포스터, 타이포그래피 등이 포함된 이미지 생성에서 두드러진 성능을 보인다.

강력한 프롬프트 이해력

복잡하고 세밀한 프롬프트를 정확하게 해석하여 원하는 구성, 스타일, 세부 요소를 충실히 반영한 이미지를 생성한다.

고해상도 이미지 생성

다양한 해상도와 종횡비(aspect ratio)를 지원하며, 1024×1024를 기본으로 더 높은 해상도도 생성 가능하다.

다양한 예술 스타일 지원

사실적인 사진부터 일러스트, 추상화, 픽셀아트, 3D 렌더링에 이르기까지 폭넓은 스타일을 지원한다.

기술적 배경

Diffusion Transformer (DiT)

FLUX.1은 기존 U-Net 기반 아키텍처 대신 Multimodal Diffusion Transformer(MM-DiT) 를 사용한다. 이미지 토큰과 텍스트 토큰을 함께 처리하는 멀티모달 어텐션 구조로, 텍스트와 이미지 간의 정렬(alignment) 성능이 크게 향상된다.

아키텍처 세부 구조:

Double-stream blocks: 이미지 스트림과 텍스트 스트림을 별도로 처리
Single-stream blocks: 두 스트림을 통합하여 공동 처리
Rotary Positional Embeddings (RoPE): 위치 인코딩 개선
Parallel Attention Layers: 병렬 어텐션으로 효율성 향상

텍스트 인코더로는 T5-XXL과 CLIP-ViT-H 두 가지를 함께 사용하여 풍부한 언어 이해를 달성한다.

Flow Matching (Rectified Flow)

기존 DDPM 계열 확산 모델의 확률적 노이즈 제거 대신 Rectified Flow 방식을 채택했다. 노이즈에서 이미지로 향하는 경로를 직선(rectified)으로 학습함으로써:

더 적은 스텝으로 고품질 이미지 생성 가능
학습과 추론의 수식이 단순해짐
ODE(상미분방정식) 기반 deterministic 생성 경로

구체적으로, 이미지 인코딩과 가우시안 노이즈 사이의 선형 경로 위 임의 지점을 샘플링하여 학습하며, 모델은 속도(velocity) 벡터 필드를 회귀한다.

성능 벤치마크

모델	Elo 점수 (ELO Arena)
FLUX.1 [pro]	1060
FLUX.1 [dev]	1044
Midjourney v6.1	~1030
Stable Diffusion 3 Large	~1010
FLUX.1 [schnell]	~1000
DALL-E 3	~990

MLCommons는 MLPerf Training v5.1 벤치마크에 FLUX.1을 채택하여, 12B 파라미터 트랜스포머 기반 텍스트-이미지 모델의 표준 벤치마크로 삼았다.

라이선스 및 링크

리소스	링크
공식 웹사이트	bfl.ai
GitHub	black-forest-labs/flux
FLUX.1 [schnell] (HuggingFace)	black-forest-labs/FLUX.1-schnell
FLUX.1 [dev] (HuggingFace)	black-forest-labs/FLUX.1-dev
diffusers 공식 문서	huggingface.co/docs/diffusers

라이선스 주의: FLUX.1 [dev]는 비상업용 라이선스이므로 상업적 프로덕트에 사용 시 반드시 FLUX.1 [pro] API 또는 FLUX.1 [schnell]을 사용해야 한다.

개요