Tesla Transport Protocol over Ethernet
Tesla는 HotChips 2024에서 Tesla Transport Protocol over Ethernet (TTPoE)를 오픈 소스로 공개함
Features
- 테슬라는 Ultra Ethernet Consortium (UEC)에 합류하여 이 프로토콜을 공유하고 AI/ML/데이터센터를 위한 새로운 고속/저지연 패브릭을 표준화하기 위해 노력중
- TTPoE는 비독점적이고, 저비용이며, 분산 혼잡 제어, 표준 EthernetII 프레임, 비중앙집중식 상호 연결 프로토콜을 지향함
- TTPoE의 특징
- TCP와 마찬가지로 패킷 손실과 재전송이 허용되지만, 전체 전송이 보장됨
- TTPoE의 초기 배포는 Tesla Dojo v1 프로젝트에서 이루어졌음
- 프로토콜이 전적으로 하드웨어에서 실행되며 수만 개 이상의 동시 엔드포인트가 있는 초대형 멀티 엑사플롭스(fp16) 슈퍼컴퓨터에 배포됨
- 이더넷 전송은 본질적으로 A에서 B로 데이터를 이동시키는 것이며, 물리적 한계에 의해서만 제한되어야 함
- 매우 큰 규모의 시스템에서 중앙 집중식 혼잡 관리는 어리석은 시도이며, 각 엔드포인트는 탄력적이고 자체 관리되어야 함
GN⁺의 의견
- TTPoE는 고성능 컴퓨팅 환경에서 기존의 TCP 프로토콜이 가진 한계를 극복하기 위한 흥미로운 시도임
- 하드웨어 오프로딩과 단순화된 상태 머신을 통해 지연 시간을 최소화하고 처리량을 극대화하는 것이 주요 목표로 보임
- TTPoE는 AI와 ML 분야에서 데이터 전송 속도와 지연 시간을 개선할 수 있는 잠재력이 있음
- Tesla가 이 프로토콜을 오픈 소스로 공개한 것은 HPC 분야에서 혁신을 가속화하는 데 도움이 될 것임
- 다만 TTPoE가 범용 네트워크에서 TCP를 완전히 대체하기는 어려울 것으로 보이며, 고품질의 전용 네트워크에 최적화된 솔루션임. TTPoE가 널리 채택되기 위해서는 표준화와 생태계 구축이 중요할 것임
- 유사한 기능을 가진 프로토콜로는 RoCE (RDMA over Converged Ethernet)와 NVLink가 있음