Skip to content

Magma

Magma: A Foundation Model for Multimodal AI Agents

멀티모달 AI 에이전트를 위한 기초 모델

About

  • Magma는 다중모달 입력을 해석하고 이를 환경 내에서 연결할 수 있는 최초의 기초 모델로, 가상 및 현실 세계에서의 복잡한 상호작용을 처리할 수 있음
  • 단순한 이미지·영상 이해뿐만 아니라, 목표 중심의 시각적 계획 및 실행을 생성하여 다양한 AI 에이전트 작업을 수행
  • UI 내비게이션, 로봇 조작, 이미지·영상 이해(특히 공간적 이해 및 추론) 등 여러 멀티모달 작업에서 최첨단 성능을 달성
  • 확장 가능한 사전학습 방식: 비라벨링된 영상 데이터를 기존의 에이전트 데이터와 함께 학습하여 강력한 일반화 성능을 가지며, 실제 응용에 적합
  • 코드, 모델, UI 내비게이션 데모를 MSR Forum (2025.02.25)에서 공개할 예정.

See also

Favorite site