Skip to content

Tesla Transport Protocol over Ethernet

Tesla는 HotChips 2024에서 Tesla Transport Protocol over Ethernet (TTPoE)를 오픈 소스로 공개함

Features

  • 테슬라는 Ultra Ethernet Consortium (UEC)에 합류하여 이 프로토콜을 공유하고 AI/ML/데이터센터를 위한 새로운 고속/저지연 패브릭을 표준화하기 위해 노력중
  • TTPoE는 비독점적이고, 저비용이며, 분산 혼잡 제어, 표준 EthernetII 프레임, 비중앙집중식 상호 연결 프로토콜을 지향함
  • TTPoE의 특징
    • TCP와 마찬가지로 패킷 손실과 재전송이 허용되지만, 전체 전송이 보장됨
    • TTPoE의 초기 배포는 Tesla Dojo v1 프로젝트에서 이루어졌음
      • 프로토콜이 전적으로 하드웨어에서 실행되며 수만 개 이상의 동시 엔드포인트가 있는 초대형 멀티 엑사플롭스(fp16) 슈퍼컴퓨터에 배포됨
    • 이 프로토콜은 CPU나 OS의 개입 없이 링크를 설정하고 실행할 수 있음
  • 이 프로토콜은 복잡하거나 똘똘한 것이 아니라 기본 원칙에 기반을 둠
    • 이더넷 전송은 본질적으로 A에서 B로 데이터를 이동시키는 것이며, 물리적 한계에 의해서만 제한되어야 함
    • 매우 큰 규모의 시스템에서 중앙 집중식 혼잡 관리는 어리석은 시도이며, 각 엔드포인트는 탄력적이고 자체 관리되어야 함

GN⁺의 의견

  • TTPoE는 고성능 컴퓨팅 환경에서 기존의 TCP 프로토콜이 가진 한계를 극복하기 위한 흥미로운 시도임
  • 하드웨어 오프로딩과 단순화된 상태 머신을 통해 지연 시간을 최소화하고 처리량을 극대화하는 것이 주요 목표로 보임
  • TTPoE는 AI와 ML 분야에서 데이터 전송 속도와 지연 시간을 개선할 수 있는 잠재력이 있음
  • Tesla가 이 프로토콜을 오픈 소스로 공개한 것은 HPC 분야에서 혁신을 가속화하는 데 도움이 될 것임
  • 다만 TTPoE가 범용 네트워크에서 TCP를 완전히 대체하기는 어려울 것으로 보이며, 고품질의 전용 네트워크에 최적화된 솔루션임. TTPoE가 널리 채택되기 위해서는 표준화와 생태계 구축이 중요할 것임
  • 유사한 기능을 가진 프로토콜로는 RoCE (RDMA over Converged Ethernet)와 NVLink가 있음

See also

Favorite site