Skip to content

Tuplex

병렬 빅데이터 처리 프레임워크

Tuplex는 컴파일된 코드의 속도로 Python으로 작성된 데이터 과학 파이프라인을 실행하는 병렬 빅 데이터 처리 프레임워크입니다. Tuplex에는 Apache Spark 또는 Dask와 유사한 Python API가 있지만 Python 인터프리터를 호출하는 대신 Tuplex는 주어진 파이프라인 및 입력 데이터 세트에 대해 최적화된 LLVM 바이트코드를 생성합니다.

Features

  • Apache Spark / Dask 와 비슷한 Python API 를 제공하지만
    • 파이썬 인터프리터를 호출하지 않음
    • 주어진 파이프라인과 입력 데이터세트에 최적화된 LLVM 바이트코드를 생성
    • 인터프리터 대비 5~91x 빠름
  • 내부적으로 데이터 드리븐 컴파일과 듀얼 모드 처리를 기반으로 해서, C++로 코딩하고 최적화된 파이프라인과 비슷한 속도를 냄
  • MacOS / Linux 지원
  • SIGMOD '21 에서 발표된 "Tuplex: Data Science in Python at Native Code Speed" 논문

See also

Favorite site