Skip to content

Goku

Saiyan-World/goku: Video Generation Foundation Models: https://saiyan-world.github.io/goku/

ByteDance의 Flow 기반 비디오 생성 모델

About

  • Goku는 "Rectified Flow Transformer"를 기반으로 한 새로운 이미지 및 비디오 생성 모델군으로, 업계 최고 수준의 성능을 목표로 함
  • 고품질 시각적 생성 기술을 위해 "데이터 선별, 모델 설계, 플로우 공식화" 등 다양한 최적화를 적용
  • 주요 특징
    • 고품질 데이터 선별을 통한 정밀한 이미지 및 비디오 생성
    • Rectified Flow 기법을 활용하여 이미지 및 비디오 토큰 간 상호작용 강화
    • 이미지 및 비디오 생성에서 뛰어난 성능을 제공
  • 지원하는 생성 작업
    • 텍스트 → 비디오 생성
    • 이미지 → 비디오 생성
    • 텍스트 → 이미지 생성
  • 성능 벤치마크 : 주요 벤치마크에서 높은 성능을 기록
    • 0.76 (GenEval - 텍스트 → 이미지 생성)
    • 83.65 (DPG-Bench - 텍스트 → 이미지 생성)
    • 84.85 (VBench - 텍스트 → 비디오 생성)
  • Goku-T2V는 VBench 성능 비교에서 84.85점을 기록하며 2024년 10월 7일 기준 2위를 차지
    • 여러 상업용 텍스트-비디오 모델을 능가하는 성과 (AnimateDiff-V2, OpenSora, Gen-3, Kling 등)

See also

Favorite site