Yi

A series of large language models trained from scratch by developers @01-ai

차세대 오픈소스 이중언어 LLM

Features

개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델
이중 언어 모델로 목표를 두고 3T 다국어 코퍼스로 훈련되어, 언어 이해, 상식 추론, 독해 능력 등에서 강력한 성능을 보여줌
6B와 34B 사전 훈련된 언어 모델을 기반으로 하며, 챗봇 모델, 200K 긴 컨텍스트 모델, 깊이 업스케일 모델, 비전-언어 모델로 확장
Yi-34B-Chat 모델은
- AlpacaEval 리더보드에서 GPT-4 Turbo에 이어 2위를 차지하며 다른 LLM들을 능가
- 영어와 중국어 모두에서 기존의 오픈소스 모델들을 능가하며 다양한 벤치마크에서 1위를 차지
Llama와 동일한 모델 아키텍처를 채택하고 있지만 Llama의 파생 모델이 아님. Llama의 가중치를 사용하지 않음
다양한 크기로 제공되며, 특정 요구 사항에 맞게 모델을 미세 조정할 수 있음
- 채팅 모델
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- 베이스 모델
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

Yi: Open Foundation Models by 01.AI | Hacker News
Yi-34B-Chat 모델은 GPT-4 Turbo에 이어 AlpacaEval 리더보드에서 2위를 차지하며 GPT-4, Mixtral, Claude 등 다른 LLM들을 능가함.
Yi-34B 모델은 오픈 소스 모델 중에서 영어와 중국어 벤치마크에서 1위를 차지함. 이는 Hugging Face Open LLM Leaderboard (사전 훈련된 모델)와 C-Eval을 기준으로 함.
저장소의 소스 코드는 Apache 2.0 라이선스를 따르지만, 가중치는 그렇지 않음.
Yi 모델은 특정 테스트 프롬프트에서 실패함. 여러 번 시도했지만, Yi는 매번 다른 답 중 하나를 승자로 선택함.
"01.ai"라는 이름은 영화 '매트릭스'에서 인류와 전쟁을 벌이고 인간을 노예로 만든 첫 번째 AI 국가의 이름과 같아서 길조가 아님을 암시함.
Yi 모델의 성능은 데이터 엔지니어링 노력으로 인한 데이터 품질에 기인함.
Yi 34B Chat 모델은 NYT Connections 벤치마크에서 좋은 성적을 내지 못하고 LMSYS Elo 기반 리더보드에서 22위를 기록함. 중국어에서는 더 나은 성능을 보임.
이러한 모델들의 성능이 향상되는 것을 보며, 2-3년 내에 모바일 우선 LLM이 텍스트 음성 변환과 타이핑 예측을 개선하고 배터리 소모도 크게 줄일 것이라는 희망을 갖게 됨.
Yi-9B라는 새로운 모델도 있음.

Yi-1.5 is an upgraded version of Yi, delivering stronger performance in coding, math, reasoning, and instruction-following capability.

개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델인 Yi를 업그레이드
500B 토큰 코퍼스로 사전학습 및 3M의 다양한 파인 튜닝 샘플로 미세조정
Yi-1.5는 Yi에 비해 코딩, 수학, 추론, 지시 사항 따르기 능력에서 더 강력한 성능을 제공하면서도 언어 이해, 상식적 추론, 독해 능력에서는 여전히 우수한 능력을 유지
3개의 모델 사이즈로 제공 : 34B, 9B, 6B