Skip to content

Large Multimodal Model

멀티모달 모델(Multimodal Model)은 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터(모달리티)를 함께 고려하여 서로의 관계성을 학습 및 처리하는 인공지능이다. 이 중 상대적으로 크기가 큰 모델을 "거대 멀티모달 모델" 혹은 "대형 멀티모달 모델(LMM(Large Multimodal Model))"이라고 부른다.

종류

Early Fusion

Early Fusion은 종류가 다른 두가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습을 시키는 경우다. 이 때 형식이 다른 두 데이터를 합치기 위해서는 다양한 데이터 변환이 이루어진다. 원시데이터를 그대로 융합해도 괜찮고, 전처리를 한 이후에 융합해도 상관없다.

Late Fusion

Late Fusion은 종류가 다른 두가지 데이터를 각각 다른 모델에 학습시킨 이후 나온 결과를 융합하는 방법으로, 기존의 앙상블모델이 작동하는 방식과 비슷하다.

Joint Fusion

Joint Fusion은 두개의 모달리티 데이터를 동시에 학습시키지 않고 내가 원하는 모델의 깊이에서 모달리티를 병합할 수 있는 유연성을 가지고 있다. 하나의 모달리티로 모델학습을 진행하다가 모델학습의 마지막 레이어 전에 다른 모달리티와 융합하는 방법으로, 이 과정을 end-to-end learning이라고도 한다.

Categories

  • LLaVA
  • EAGLE - NVIDIA가 복잡한 시각 정보를 이해해 상호 작용하는 능력을 크게 향상한 새로운 멀티모달언어모델(LMM)을 오픈 소스로 공개
  • Llama 3.2 - Revolutionizing edge AI and vision with open, customizable models (메타가 '라마' 시리즈 중 이미지와 텍스트를 모두 이해하는 첫번째 대형멀티모달모델(LMM)을 출시했다)
  • Magma - 멀티모달 AI 에이전트를 위한 기초 모델

See also

Favorite site