SmolGPT
작은 LLM을 처음부터 훈련하기 위한 최소한의 PyTorch 구현
교육 목적으로 설계된 PyTorch 기반의 간단한 LLM 훈련 프로젝트로, 효율적인 훈련과 최신 샘플링 기법을 적용
Features
- 최소 코드베이스: PyTorch로 구현되어 복잡한 추상화가 없음
- 최신 아키텍처: GPT 모델로, 플래시 어텐션, RMSNorm, SwiGLU, 효율적인 샘플링 기법 포함
- 훈련 기능:
- 혼합 정밀도 (bfloat16/float16)
- 그래디언트 누적
- 웜업을 통한 학습률 감소
- 가중치 감소 및 그래디언트 클리핑