DeepEP
an efficient expert-parallel communication library
Features
- Mixture-of-Experts(MoE) 및 Expert Parallelism(EP)을 위한 고성능 통신 라이브러리
- GPU 기반 All-to-All 커널을 제공하여 MoE 디스패치 및 결합 연산을 고속으로 처리
- FP8과 같은 저정밀 연산 지원
- DeepSeek-V3 논문에서 제안한 그룹 제한 게이팅(group-limited gating) 알고리즘을 적용하여 비대칭 도메인 대역폭 포워딩을 최적화
- 예: NVLink → RDMA 데이터 전송 최적화
- 훈련 및 추론 프리필링(prefilling) 작업에 적합한 높은 처리량 제공