Apache Arrow
Apache Arrow는 열 데이터를 처리하는 데이터 분석 애플리케이션을 개발하기 위한 언어에 구애받지 않는 소프트웨어 프레임워크입니다.
About
서로 다른 데이터 인프라가 서로 간의 데이터 공유를 위해 API를 이용할 때 발생하는 문제점 중 하나는 직렬화와 역 직렬화의 오버헤드가 너무 높다는 것이다. 이는 애플리케이션 성능의 병목을 초래한다.
Arrow는 언어, 플랫폼과 상관없이 메모리 상에서 컬럼 구조로 데이터를 정의하여, CPU와 GPU에서 메모리를 빠르게 읽고 쓸 수 있도록 한다.
PyArrow
PyArrow - Apache Arrow Python bindings
See also
- Perspective
- Apache
- pandas
- Vortex - 고성능 Columnar 파일 포맷. 압축된 Apache Arrow 배열을 다루기 위함.