Language model
언어 모델(language model) 또는 언어 모형은 일련의 단어들의 확률 분포이다. 길이 m의 단어들의 시퀀스가 주어졌을 때 언어 모델은 확률 을 전체 시퀀스에 할당한다. 언어들이 무한하고 다양한, 유효한 문장들을 표현하기 위해 사용할 수 있을 때 언어 모델링은 0이 아닌 확률들을 언어적으로 유효한 (훈련 데이터에 마주친 적이 없을 수 있는) 문장들에 할당하는 문제에 직면한다. 이 문제를 극복하기 위한 여러 모델링 접근법들이 설계되고 있는데, 예를 들면 마르코프 추정을 적용하거나 순환 신경망 또는 변환기 등의 신경 아키텍처를 사용하는 것을 들 수 있다.
언어 모델은 전산언어학의 다양한 문제에 유용하다.
About
언어 모델(LM, Language Model)은 입력값(자연어, 보통은 사용자의 문장)을 기반으로 통계학적[1]으로 가장 적절한 출력값을 출력하도록 학습된 모델이다. 규모가 더욱 커다란 언어모델(LM)을 LLM(Large Language Models,대규모 언어모델)이라고 부르는데, 매개변수 규모가 막대한, GPT-4 같은 모델들이 이에 해당한다. 반대로 규모가 작은 쪽은 SLM(small Language Models)이라 하는데, 다룰 수 있는 범위가 LLM에 비해 좁은 대신 비용이 적게 들어간다.[2] LLM의 경우는 주로 메인프레임, 슈퍼컴퓨터에서 돌아가는 반면, SLM은 워크스테이션, 심지어는 일부 고성능 PC에서 실행되기도 한다.
Categories
- Large language model (대규모 언어 모델; LLM) - 딥러닝 기반의 프로젝트는 거의 이 곳에 정리함.