Skip to content

Microsoft Kosmos-1

Microsoft Kosmos-1 - Multimodal LLM(MLLM)

Features

  • 일반적인 양식을 인식하고, 콘텍스트에서 학습하며(few-shot), 지시를 따르는(zero-shot) Multimodal Large Language Model (MLLM)
  • 텍스트, 이미지, 이미지 캡션 쌍등으로 훈련된 모델로 아래 작업에서 인상적인 성능을 발휘
    • 언어 이해, 생성, OCR이 필요없는 NLP(문서 이미지에서 직접인식)
    • 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변
    • 설명이 포함된 이미지 인식(텍스트 지시를 통한 분류 지정) 등의 비전 작업
  • 교차 모달 전달(언어에서 다중 모달로, 다중모달에서 언어로 지식을 전달)을 통해서 MLLM이 이점을 얻을수 있음

Documentations

[2302.14045] Language Is Not All You Need - Aligning Perception with Language Models
https://arxiv.org/abs/2302.14045

See also