Llama.cpp
페이스북의 LLaMA 모델을 순수 C/C++로 추론하기
Features
- 맥북에서 LLaMA 모델을 4-bit 양자화하여 실행하는 것을 목표
- 의존성 없는 순수 C/C++ 구현
- Arm Neon/Accelerate 프레임워크에 최적화(애플 실리콘)
- x86용 AVX2 지원
- 혼합 F16/F32 정밀도
- 4-bit quntization 지원
- CPU에서 실행
- 현재는 맥/리눅스만 지원. 윈도우 지원 예정
See also
- LLaMA
- Alpaca.cpp - ChatGPT 같은 모델을 개인 노트북에서 실행하기
- LocalAI - 셀프호스트 가능한 OpenAI 호환 API