Goku
Saiyan-World/goku: Video Generation Foundation Models: https://saiyan-world.github.io/goku/
ByteDance의 Flow 기반 비디오 생성 모델
About
- Goku는 "Rectified Flow Transformer"를 기반으로 한 새로운 이미지 및 비디오 생성 모델군으로, 업계 최고 수준의 성능을 목표로 함
- 고품질 시각적 생성 기술을 위해 "데이터 선별, 모델 설계, 플로우 공식화" 등 다양한 최적화를 적용
- 주요 특징
- 고품질 데이터 선별을 통한 정밀한 이미지 및 비디오 생성
- Rectified Flow 기법을 활용하여 이미지 및 비디오 토큰 간 상호작용 강화
- 이미지 및 비디오 생성에서 뛰어난 성능을 제공
- 텍스트 → 비디오 생성
- 이미지 → 비디오 생성
- 텍스트 → 이미지 생성
- 0.76 (GenEval - 텍스트 → 이미지 생성)
- 83.65 (DPG-Bench - 텍스트 → 이미지 생성)
- 84.85 (VBench - 텍스트 → 비디오 생성)
- 여러 상업용 텍스트-비디오 모델을 능가하는 성과 (AnimateDiff-V2, OpenSora, Gen-3, Kling 등)