Yi
A series of large language models trained from scratch by developers @01-ai
차세대 오픈소스 이중언어 LLM
Features
- 개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델
- 이중 언어 모델로 목표를 두고 3T 다국어 코퍼스로 훈련되어, 언어 이해, 상식 추론, 독해 능력 등에서 강력한 성능을 보여줌
- 6B와 34B 사전 훈련된 언어 모델을 기반으로 하며, 챗봇 모델, 200K 긴 컨텍스트 모델, 깊이 업스케일 모델, 비전-언어 모델로 확장
- Yi-34B-Chat 모델은
- AlpacaEval 리더보드에서 GPT-4 Turbo에 이어 2위를 차지하며 다른 LLM들을 능가
- 영어와 중국어 모두에서 기존의 오픈소스 모델들을 능가하며 다양한 벤치마크에서 1위를 차지
- 채팅 모델
- Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
- Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- 베이스 모델
- Yi-34B, Yi-34B-200K
- Yi-9B
- Yi-6B, Yi-6B-200K
Hacker News 의견
- Yi: Open Foundation Models by 01.AI | Hacker News
- Yi-34B-Chat 모델은 GPT-4 Turbo에 이어 AlpacaEval 리더보드에서 2위를 차지하며 GPT-4, Mixtral, Claude 등 다른 LLM들을 능가함.
- Yi-34B 모델은 오픈 소스 모델 중에서 영어와 중국어 벤치마크에서 1위를 차지함. 이는 Hugging Face Open LLM Leaderboard (사전 훈련된 모델)와 C-Eval을 기준으로 함.
- 저장소의 소스 코드는 Apache 2.0 라이선스를 따르지만, 가중치는 그렇지 않음.
- Yi 모델은 특정 테스트 프롬프트에서 실패함. 여러 번 시도했지만, Yi는 매번 다른 답 중 하나를 승자로 선택함.
- "01.ai"라는 이름은 영화 '매트릭스'에서 인류와 전쟁을 벌이고 인간을 노예로 만든 첫 번째 AI 국가의 이름과 같아서 길조가 아님을 암시함.
- Yi 모델의 성능은 데이터 엔지니어링 노력으로 인한 데이터 품질에 기인함.
- Yi 34B Chat 모델은 NYT Connections 벤치마크에서 좋은 성적을 내지 못하고 LMSYS Elo 기반 리더보드에서 22위를 기록함. 중국어에서는 더 나은 성능을 보임.
- 이러한 모델들의 성능이 향상되는 것을 보며, 2-3년 내에 모바일 우선 LLM이 텍스트 음성 변환과 타이핑 예측을 개선하고 배터리 소모도 크게 줄일 것이라는 희망을 갖게 됨.
- Yi-9B라는 새로운 모델도 있음.
Yi 1.5
Yi-1.5 is an upgraded version of Yi, delivering stronger performance in coding, math, reasoning, and instruction-following capability.
- 개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델인 Yi를 업그레이드
- 500B 토큰 코퍼스로 사전학습 및 3M의 다양한 파인 튜닝 샘플로 미세조정
- Yi-1.5는 Yi에 비해 코딩, 수학, 추론, 지시 사항 따르기 능력에서 더 강력한 성능을 제공하면서도 언어 이해, 상식적 추론, 독해 능력에서는 여전히 우수한 능력을 유지
- 3개의 모델 사이즈로 제공 : 34B, 9B, 6B