OpenTSLM
시계열 데이터를 이해하는 언어 모델
About
- 기존 파운데이션 모델은 텍스트, 이미지, 오디오, 비디오는 다루지만 실세계를 구동하는 시계열 데이터(바이탈, 가격, 원격측정, 로그 등)에 대한 시간적 추론 능력이 부족
- Time Series Language Models(TSLMs) 는 시계열을 텍스트와 동등한 고유 모달리티로 지원하여, 사용자가 자연어로 질문하고 설명과 권장사항을 받을 수 있음
- OpenTSLM은 의료 분야의 시계열 데이터와 임상 텍스트를 함께 처리할 수 있도록 설계된 새로운 언어 모델
- cross-attention 아키텍처를 채택하여 긴 시계열에서도 확장 가능하며, 기존 방식과 달리 대규모 운영이 실용적
- 두 가지 구조가 제안됨: SoftPrompt(시계열을 토큰으로 삽입)과 Flamingo(교차 주의 기반), 각각 다른 장단점을 가짐
- 세 가지 새로운 Chain-of-Thought(CoT) 데이터셋(HAR, Sleep, ECG-QA)을 도입해 모델의 추론 성능을 평가함