Skip to content

SmolGPT

작은 LLM을 처음부터 훈련하기 위한 최소한의 PyTorch 구현

교육 목적으로 설계된 PyTorch 기반의 간단한 LLM 훈련 프로젝트로, 효율적인 훈련과 최신 샘플링 기법을 적용

Features

  • 최소 코드베이스: PyTorch로 구현되어 복잡한 추상화가 없음
  • 최신 아키텍처: GPT 모델로, 플래시 어텐션, RMSNorm, SwiGLU, 효율적인 샘플링 기법 포함
  • 훈련 기능:
    • 혼합 정밀도 (bfloat16/float16)
    • 그래디언트 누적
    • 웜업을 통한 학습률 감소
    • 가중치 감소 및 그래디언트 클리핑
  • 데이터셋 지원: TinyStories 데이터셋 처리 내장
  • 커스텀 토크나이저: SentencePiece 토크나이저 훈련 통합

See also

Favorite site