Megabyte
Meta, 혁신적인 AI 모델 아키텍처 Megabyte 공개
Features
- GTP-4 같은 모델이 사용하는 트랜스포머 아키텍처를 뛰어넘어 더 효율적/병렬적으로 처리하게 스케일 가능
- 트랜스포머는 짧은 시퀀스에는 적합하지만, 고해상 이미지, 팟캐스트, 코드, 책과 같은 1백만개 이상의 긴 토큰으로의 확장은 어려움
- Megabyte 는 멀티-스케일 디코더 아키텍처로 1백만 이상의 시퀀스를 모델링 가능
- 입력과 출력의 시퀀스를 개별 토큰이 아닌 "Patch"로 분할
- 로컬 AI 모델이 각 패치에 대해서 결과를 생성하고, 글로벌 모델이 이 패치들을 관리 및 조율
Meta AI의 Megabyte에 대한 설명
AI 인프라 / 도구 개발 스타트업 ENCORD에서 작성한 Megabyte 설명 글의 번역
- MegaByte의 주요한 구조 소개
- Patch Embedder: 입력을 임베딩하고 패치로 분할
- Global Module: 셀프 어텐션을 수행하는 자기회귀 트랜스포머
- Local Module: 글로벌 모델로부터 받은 입력으로 다음 패치를 예측
- 연산 비용을 O(N^(4/3))으로 절감한 셀프 어텐션
- 패치 단위로 피드포워드 레이어 적용
- 디코딩 시 병렬 처리
- SAM: https://news.hada.io/topic?id=8893
- MTIA: https://news.hada.io/topic?id=9246
- DINOv2: https://news.hada.io/topic?id=9269
- ImageBIND: https://news.hada.io/topic?id=9156
- (글에는 없지만) MMS: https://news.hada.io/topic?id=9245
- (역시 글에는 없지만) LIMA: https://news.hada.io/topic?id=9239