Skip to content

DeepScaleR

RL을 활용한 1.5B 모델로 O1-Preview 능가하기

About

DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B 모델을 강화 학습(RL)으로 미세 조정한 모델
AIME2024 Pass@1 정확도 43.1% 달성 (기본 모델 대비 +14.3% 향상),
- OpenAI o1-preview 성능 능가!
3,800 A100 GPU 시간($4500)으로 훈련 → 70,000 A100 GPU 시간 대비 18.42배 효율적인 RL 스케일링
데이터셋, 코드, 훈련 로그 오픈소스 공개 → 누구나 RL을 활용한 지능 확장을 실험 가능

See also

DeepSeek

Favorite site