Skip to content

DeepFloyd IF

오픈소스 Text-to-Image 모델

Features

Stability AI 의 새 이미지 모델
언어 이해도가 기존 모델에 비해 높고, 포토리얼리즘한 이미지를 생성
T5 Transformer 기반 Frozen 텍스트 인코더와 3단계 픽셀 디퓨전 모듈의 결합
- 64x64, 256x256, 1024x1024px
Zero-shot FID 스코어 6.66 (COCO 데이터셋)

See also

Favorite site

Github - deep-floyd/IF