DeepScaleR RL을 활용한 1.5B 모델로 O1-Preview 능가하기 About DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B 모델을 강화 학습(RL)으로 미세 조정한 모델 AIME2024 Pass@1 정확도 43.1% 달성 (기본 모델 대비 +14.3% 향상), OpenAI o1-preview 성능 능가! 3,800 A100 GPU 시간($4500)으로 훈련 → 70,000 A100 GPU 시간 대비 18.42배 효율적인 RL 스케일링 데이터셋, 코드, 훈련 로그 오픈소스 공개 → 누구나 RL을 활용한 지능 확장을 실험 가능 See also DeepSeek Favorite site DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL DeepScaleR: RL을 활용한 1.5B 모델로 O1-Preview 능가하기 | GeekNews