Microsoft Kosmos-1
Microsoft Kosmos-1 - Multimodal LLM(MLLM)
Features
- 일반적인 양식을 인식하고, 콘텍스트에서 학습하며(few-shot), 지시를 따르는(zero-shot) Multimodal Large Language Model (MLLM)
- 텍스트, 이미지, 이미지 캡션 쌍등으로 훈련된 모델로 아래 작업에서 인상적인 성능을 발휘
- 언어 이해, 생성, OCR이 필요없는 NLP(문서 이미지에서 직접인식)
- 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변
- 설명이 포함된 이미지 인식(텍스트 지시를 통한 분류 지정) 등의 비전 작업
Documentations
- [2302.14045] Language Is Not All You Need - Aligning Perception with Language Models
- https://arxiv.org/abs/2302.14045