Large language model

(이해할 수 있는 규칙 생성을 기반으로 하는 기계 학습 방법은 Logic learning machine 항목 참조)

대형 언어 모델(Large language model, LLM) 또는 거대 언어 모델은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다. LLM은 2018년 즈음에 모습을 드러냈으며 다양한 작업을 위해 수행된다. 이전의 특정 작업의 특수한 지도 학습 모델의 훈련 패러다임에서 벗어나 자연어 처리 연구로 초점이 옮겨졌다.

대규모 언어 모델(LLM) 은 AI 챗봇 기술을 가능하게 하는 요소이며 많은 화제를 불러일으키고 있는 주제 중 하나다. 대규모 언어 모델(LLM)의 작동 방식은 크게 3가지로 나뉘고 있다. 토큰화, 트랜스포머 모델, 프롬프트 등. 토큰화는 자연어 처리의 일부로 일반 인간 언어를 저수준 기계 시스템(LLMS)가 이해할 수 있는 시퀀스로 변환하는 작업을 말하며 여기에는 섹션에 숫자 값을 할당하고 빠른 분석을 위해 인코딩하는 작업이 수반된다. 이는 음성학의 AI 버전과 같으며 토큰화의 목적은 인공지능이 문장의 구조를 예측하기 위한 학습 가이드 또는 공식과 같은 컨텍스트 백터를 생성하는 것이 목적. 언어를 더 많이 연구하고 문장이 어떻게 구성되는지 이해할수록 특정 유형의 문장에서 다음 언어에 대한 예측이 더 정확 해진다. 이로 인해 온라인에서 사람들이 사용하는 다양한 커뮤니케이션 스타일을 재현하는 모델을 개발할 수 있다.

트랜스포머 모델은 순차적 데이터를 검사하여 어떤 단어가 서로 뒤따를 가능성이 높은지 관련 패턴을 식별하는 신경망의 일종으로 각각 다른 분석을 수행하여 어떤 단어가 호환되는지 결정하는 계층으로 구성된다. 이러한 모델은 언어를 학습하지 않고 알고리즘에 의존하여 사람이 쓴 단어를 이해하고 예를들어, 힙스터 커피 블로그를 제공함으로써 커피에 대한 표준 글을 작성하도록 학습 시킨다. 이 트랜스포머 모델이 대규모 언어 모델 LLM 언어 생성의 기초.

프롬프트는 개발자가 정보를 분석하고 토큰화하기 위해 대규모 언어 모델 LLM에 제공하는 정보로 프롬프트는 기본적으로 다양한 사용 사례에서 LLM에 도움이 되는 학습 데이터 입니다. 더 정확한 프롬프트를 받을수록 LLM은 다음 단어를 더 잘 예측하고 정확한 문장을 구성할 수 있습니다. 따라서 딥러닝 AI의 적절한 학습을 위해서는 적절한 프롬프트를 선택하는 것이 중요하다.

AI 친화적 GUI 프레임워크

Prompt-Kit
Streamlit - 데이터 과학자의 쉬운 웹 제작 도구
Gradio

한국어 오픈소스 LLM

NomaDamas/awesome-korean-llm: Awesome list of Korean Large Language Models - 한국어 오픈소스 LLM 정보를 모아놓은 awesome list입니다.
rtzr/Awesome-Korean-Speech-Recognition: 한국어 음성인식 STT API 리스트. 각 성능 벤치마크. - Awesome 한국어 음성인식
KoDarkBench : 어떤 K-LLM이 가장 음침할까? | GeekNews
- [원문] RiceBobb/KoDarkBench: Korean version of DarkBench

Polyglot-Ko - https://github.com/EleutherAI/polyglot
KoAlpaca - https://github.com/Beomi/KoAlpaca
KuLLM - https://github.com/nlpai-lab/KULLM
KORani - https://github.com/krafton-ai/KORani
K(G)OAT - https://github.com/Marker-Inc-Korea/K-G-OAT
KoVicuna - https://github.com/melodysdreamj/KoVicuna
Kollama - https://huggingface.co/beomi/kollama-33b
Llama-2-Ko - https://huggingface.co/beomi/llama-2-ko-7b
komt - https://github.com/davidkim205/komt
KoRMKV - https://huggingface.co/beomi/KoRWKV-1.5B
KoAlpaca-KoRMKV - https://huggingface.co/beomi/KoAlpaca-KoRWKV-6B
KoGPT - https://github.com/kakaobrain/kogpt
KoGPT2 - https://github.com/SKT-AI/KoGPT2

LLM API 토큰당 가격 비교

LLM API Pricing Data - Price Per Token

모든 LLM 개발자가 알아야 하는 숫자

ray-project/llm-numbers: Numbers every LLM developer should know

LLM을 사용할 때 중요한 숫자에 대한 정리.

"간결하게"를 프롬프트에 넣으면 비용을 40~90% 절약 가능.
GPT-4에 비해 GPT-3.5 Turbo는 가격이 50배 저렴함.
벡터 검색을 위해 OpenAI 임베딩을 사용하면 GPT-3.5 Turbo보다 20배 저렴함.
LLaMa급 LLM을 교육하는 데에는 백만 달러(약 13억 원)가 들어감.
GPU별 메모리 크기 - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
보통 모델 크기의 2배의 메모리가 필요함 - 7B = 14GB
임베딩 모델은 보통 1GB 이하의 메모리를 사용함
LLM 요청을 일괄 처리하면 10배 이상 빨라질 수 있음.
13B 모델은 토큰당 약 1MB가 필요하여, 요청을 일괄 처리하면 메모리 요구가 크게 증가함.

Language Model Stack

AI 어플리케이션을 위한 새로운 Language Model Stack | GeekNews
- [원문] The New Language Model Stack | Sequoia Capital

Sequoia가 투자한 모든 거의 모든 회사가 제품에 ChatGPT와 같은 LLM을 도입중. 자신들 네트워크내의 회사들을 조사한 내용을 통해 2개의 AI 스택을 정리

LLM API Stack

LLM APIs : OpenAI, Anthropic, Cohere
Vector DB: AWS, pgvector, Pinecone, Qdrant, Weaviate, Chroma
Frameworks: LangChain, LlamaIndex, Anarchy
Text-To-Speech: Resemble.AI, ElevenLabs, Wellsaid
Monitoring: DISTYL, Guardrails, Helicone, HoveHive, Autoblocks

Custom Model Training / Tuning Stack

Compute: AWS, Azure, Google Cloud, Foundary, Lamba, MosaicML, Modal, Fireworks.ai
Model Hub: Hugging Face, Replicate
Frameworks: PyTorch, TensorFlow
Experimentation: Weights & Biases
Monitoring/Observability: Robust Intelligence, Gantry, Arthur, arise, Whylabs
Hosting: Replicate, HuggingFace

키포인트

대부분의 회사가 LLM을 제품에 구축중
언어 모델 API, 검색 및 오케스트레이션에 중점. 오픈소스 사용이 증가
회사들은 언어 모델을 자신의 컨텍스트에 맞고 커스터마이징 하고 싶어함
현재는 LLM API 스택과 모델 트레이닝 스택이 분리된 것처럼 보이지만 점점 합쳐질 것
스택은 점점 더 개발자 친화적이 되어감
언어 모델이 완전히 채택되려면 언어 모델의 신뢰성(품질, 데이터 프라이버시, 보안)을 높여야 함
언어 모델 어플리케이션은 점 점 더 멀티 모달이 되어갈 것
아직 극 초반임

파인 튜닝 방법

GPT같은 LLM을 커스텀 데이터셋으로 파인튜닝 하는 방법 | GeekNews
- [원문] How To Finetune GPT Like Large Language Models on a Custom Dataset - Lightning AI

nanoGPT 기반의 오픈소스 구현체인 Lit-Parrot 으로 LoRA 와 Adapter 를 이용해서 파인 튜닝하기

StableLM, Pythia, RedPajama 같은 LLM을 지원
PyTorch의 FlashAttention 이용
예제에서는 Databricks의 Dolly 2.0 인스트럭션 데이터셋으로 RedPajama-INCITE 모델을 튜닝

텍스트 임베딩: Parquet와 Polars

Parquet와 Polars로 텍스트 임베딩을 효율적으로 사용하는 방법 | GeekNews
- [원문] The Best Way to Use Text Embeddings Portably is With Parquet and Polars | Max Woolf's Blog

텍스트 임베딩은 대형 언어 모델에서 생성된 벡터로, 단어, 문장, 문서를 수치적으로 표현하는 방식임

LLM을 활용한 코드 작성시 유의할 14가지

LLM을 활용한 코드 작성시 유의할 14가지 | GeekNews
- [원문] Here’s how I use LLMs to help me write code

합리적인 기대치 설정 (Set reasonable expectations)
학습 데이터의 종료 시점을 고려 (Account for training cut-off dates)
문맥의 중요성 (Context is king)
다양한 옵션 제시 요청 (Ask them for options)
구체적인 지시 제시 (Tell them exactly what to do)
작성된 코드는 반드시 테스트 (You have to test what it writes!)
대화형 상호작용 유지 (Remember it’s a conversation)
코드를 실행할 수 있는 도구 활용 (Use tools that can run the code for you)
‘바이브 코딩’으로 학습 (Vibe-coding is a great way to learn)
Claude Code를 활용한 상세 예제 (A detailed example using Claude Code)
인간의 개입 필요성 (Be ready for the human to take over)
개발 속도의 극대화 (The biggest advantage is speed of development)
기존 전문 지식의 증폭 (LLMs amplify existing expertise)
추가 기능: 코드베이스 관련 질문 응답 (Bonus: answering questions about codebases)

LLM의 시대에 추천시스템 및 검색 개선방법

Recommender system#LLM의 시대에 추천시스템 및 검색 개선방법 항목 참조.

소비자용 하드웨어에서 사용할 수 있는 최고의 LLM은 뭔가요?

Ask HN: 소비자용 하드웨어에서 사용할 수 있는 최고의 LLM은 뭔가요? | GeekNews
- [원문] Ask HN: What is the best LLM for consumer grade hardware? | Hacker News

5060ti + 16GB VRAM 에서 기본 대화가 가능한 모델을 찾음. 가능하면 빠르고 거의 실시간으로 동작하면 좋겠음

답변 정리

다양한 8B~14B, 30B 파라미터 모델이 16GB VRAM에서 효율적으로 동작하며, 대표적으로 Qwen3, DeepSeek-R1, Mistral, Gemma3 등이 추천됨
로컬 LLM 실행은 성능, 비용, 프라이버시 면에서 장점이 있지만, 실제 성능과 모델 적합성은 개별 실험과 튜닝이 필수임
모델 파일의 크기, 퀀타이즈(양자화) 수준(Q4~Q6 등), GPU·RAM 분산 로딩 등 하드웨어 활용 최적화 팁이 활발히 공유됨
Ollama, LM Studio, llama.cpp, OpenWebUI 등 다양한 도구가 존재하며, 각각 접근성·유연성·모델 관리 편의성에서 장단점이 있음
커뮤니티 정보(예: Reddit LocalLLaMA)는 최신 소식·실전 팁 제공에 유용하지만, 과장·오정보도 많으니 주의 필요함

주요 LLM 추천 및 활용 팁

Qwen3: 8B/14B/30B 등 다양한 파라미터 모델이 존재하며, 8B~14B 모델은 16GB VRAM에서 쾌적하게 사용 가능함. reasoning(추론) 성능이 뛰어나고, MoE(Expert Mixture) 구조로 일부 모델은 RAM 오프로딩으로 큰 사이즈도 운용 가능함
DeepSeek-R1-0528-Qwen3-8B: 최신 8B 모델 중 reasoning 성능이 뛰어나다는 평가를 받음. 8B 기준 4GB~8GB VRAM에 Q4~Q6 양자화 시 적합함
Mistral Small 3.1: 14B 또는 24B 모델이 추천되며, 대화 품질이 우수하고 비교적 censorship이 적은 편임. 특히 이미지 입력 기능이 있음
Gemma3: Google 제공 모델로, 직관적 대화에 강점. 다만 HR성향이 강해 disclaimer가 많다는 평이 있음. hallucination도 상대적으로 잦음
Devstral: Mistral 기반의 대형 모델. 30B 이상은 16GB VRAM에서는 속도가 느려질 수 있음
Dolphin, Abliterated: censorship이 적은 버전으로, routine이 아닌 상황에 유용함

하드웨어 및 실행 환경 최적화

퀀타이즈(양자화) 설정: Q4, Q5, Q6 등 양자화 수치가 낮을수록 VRAM 사용량이 줄어듦(Q4 ≒ 파라미터/2, Q6 ≒ 파라미터*0.75). 다만 품질 저하에 유의 필요
VRAM 용량 산정: 예시 - 8B Q4는 4GB, 14B Q4는 7GB, 30B Q4는 약 15GB VRAM 필요
RAM 오프로딩: VRAM 부족시 일부 레이어를 CPU 메모리로 offload 가능. 다만 속도 저하 감수 필요
KV 캐시 양자화: context window를 늘릴 때 q4 정도로 캐시 압축 사용 추천

도구 및 프론트엔드

llama.cpp: 다양한 플랫폼에서 빠르고 유연하게 동작. REST API 및 간단한 React 프론트엔드 지원. 모델을 VRAM과 RAM에 분산해 로딩 가능
Ollama: 쉬운 설치 및 모델 스위칭, GUI 프론트엔드와 연동 용이. 단, 최신 모델 지원 및 context 크기 한계가 있음
LM Studio: GUI 환경에서 모델 관리가 편리. VRAM 적합 여부 예측 기능
OpenWebUI: 프론트엔드 전용. llama.cpp, vllm 등 백엔드 필요. 여러 모델 동시에 관리 및 테스트 가능
KoboldCPP, SillyTavern: 롤플레잉/스토리텔링/게임 등 특화 프론트엔드

커뮤니티와 실전 정보

Reddit LocalLLaMA, HuggingFace, Discord: 최신 모델 소식, 사용법, 벤치마크, 세팅 노하우 등이 활발히 공유됨. 단, 오정보나 groupthink 현상에 주의 필요
벤치마크 사이트: livebench.ai, aider.chat 등에서 최신 모델별 점수 및 랭킹 제공

활용 목적과 실제 경험

프라이버시, 비용 절감: 민감 데이터/프라이버시 이슈 또는 반복적 사용 시 클라우드 대비 로컬 모델 활용도가 높음
실험 및 튜닝 자유도: 특화 도메인 파인튜닝, 샘플링 전략, 프롬프트 엔지니어링 등에서 API 모델 대비 유연함
응용 사례: RAG(검색 결합 생성), 로컬 데이터베이스 결합, 에이전트 자동화, 오프라인 도우미 등 다양한 실전 예시

자주 나오는 질문 및 팁

모델 크기 산정: 파라미터 수 × 비트(quantization)/8 = 약 VRAM 요구량(GB). 오버헤드와 context window도 고려 필요
모델별 특징: Qwen3 reasoning/코딩, Gemma3 직관/회화, Mistral censorship 적음, Dolphin/abliterated uncensor 버전 등
성능 비교: 직접 벤치마크 및 커스텀 테스트로 자신에게 맞는 모델 탐색 권장

결론 및 실전 조언

"최고의 모델"은 없으며, 하드웨어·용도·선호에 따라 Qwen3, Mistral, Gemma3 등 최신 8B~14B 모델을 다양하게 시도해 보는 것이 최선임
모델 파일 크기, 양자화, context 크기 등 사양 맞춤이 매우 중요하므로 여러 모델을 직접 테스트하고 커뮤니티 팁을 활용하는 것이 효과적임

Favorite site

Large language model - Wikipedia
대규모 언어 모델을 효과적으로 사용하기 | GeekNews
- [원문] Using Large Language Models Effectively
- LLM 기반으로 AI기능을 만들어본 10명의 창업자/경영진들을 통해 정리한 교훈들
  - GitHub Copilot, Canva Magic Write, Sourcegraph Cody, Neeva AI,..
- LLM으로 구축하기 위한 8가지 핵심 교훈
  - 공동 제작에 사용자 참여 유도
  - 위험도가 낮은 작업부터 시작
  - 신뢰 및 안전 계층 추가
  - 임베딩 활용하기
  - 모델에 더 많은 컨텍스트 제공하기
  - 새로운 도구로 모델의 성능을 강화
  - 하이브리드 접근법 사용
  - 더 큰 모델로 작은 모델을 훈련
[추천] 프로덕션용 LLM 어플리케이션 구축하기 | GeekNews
- [원문] Building LLM applications for production
- LLM으로 쿨한 것을 만드는 것은 쉽지만, 프로덕션 수준으로 만드는 것은 매우 어려움
- LLM 어플리케이션을 제품화 하기 위해 풀어야 하는 주요 과제들, 여러 태스크를 제어흐름내에 통합하는 방법 및 도구의 사용방법, 유망한 사례들을 살펴보는 글
[추천] 한국어 언어모델 (Korean Pre-trained Language Models) 톺아보기 (2)
[추천] 1년 동안 LLM과 함께 구축하며 배운 점 | GeekNews ¹
- [원문] Applied LLMs - What We’ve Learned From A Year of Building with LLMs

Tutorials

[추천] 딥 러닝을 이용한 자연어 처리 입문 - WikiDocs

Guide

LLM 프롬프트 튜닝 플레이북 | GeekNews
- [원문] varungodbole/prompt-tuning-playbook: A playbook for effectively prompting post-trained LLMs
- 이 문서는 누구를 위한 것인가?
  - Post-Trained LLM의 프롬프트 작성 능력을 향상시키고자 하는 사람들을 위한 문서
  - 기술적 배경이 부족하더라도, 기본적인 LLM 사용 경험이 있는 사람을 대상으로 함
  - 전반부: 사후 학습과 프롬프트에 대한 직관적 이해를 제공
  - 후반부: 구체적인 프롬프트 작성 절차 및 팁 제공
- 왜 튜닝 가이드가 필요한가?
  - LLM 프롬프트 작성은 경험적이고 지속적으로 학습과 수정이 필요한 작업
  - 이 문서는 효과적인 프롬프트 작성 전략을 체계적으로 공유하고자 함
  - Gemini와 같은 후교육 모델을 중심으로 작성되었으나 다른 모델에도 적용 가능
긴 컨텍스트 임베딩 모델에서 청킹(Chunking)은 여전히 필요할까요? | GeekNews
C++와 CUDA를 사용하여 처음부터 LLM 추론 엔진 만들기 | GeekNews
- [원문] Fast LLM Inference From Scratch
Sky-T1: $450로 o1 preview급의 고성능 추론 모델 훈련하기 | GeekNews
- [원문] Sky-T1: Train your own O1 preview model within $450
당신의 모델을 스케일 하는 법: TPU에서의 LLM에 대한 시스템적 관점 | GeekNews
- [원문] How To Scale Your Model
내가 LLM을 스태프 엔지니어처럼 쓰는 방법 | GeekNews
- [원문] How I use LLMs as a staff engineer | sean goedecke
Andrej Karpathy - ChatGPT와 같은 LLMs 심층 분석 (비디오) | GeekNews
- [원문] Deep Dive into LLMs like ChatGPT - YouTube

Article

LLM이 실제로 프로그래머의 생산성을 얼마나 향상시키고 있을까? | GeekNews
- [원문] How Much Are LLMs Actually Boosting Real-World Programmer Productivity? — LessWrong
AI Blindspots – AI 코딩 중에 발견한 LLM의 맹점들 | GeekNews
- [원문] AI Blindspots | AI Blindspots
- Stop Digging → 문제 발생 시 방향 전환 어려움
- Use Static Types → 정적 타입 설정 필요
- Black Box Testing → 구현 세부 정보에 과도하게 의존
- Use MCP Servers → MCP 서버 설정 및 안전성 문제
- Preparatory Refactoring → 필요 없는 리팩토링 수행 가능
- Mise en Place → 환경 설정 실패 시 문제 발생
- Stateless Tools → 상태 의존 도구에서 문제 발생
- Respect the Spec → 명세 위반 가능성 높음
- Bulldozer Method → 반복 작업 과다 수행
- Memento → 맥락 이해 부족 문제 발생
- Requirements, not Solutions → 요구 사항 명확화 필요
- Scientific Debugging → 추측 기반 수정 시 문제 발생
- Use Automatic Code Formatting → 코드 스타일 불일치 발생
- The Tail Wagging the Dog → 중요 작업보다 사소한 문제에 집착
- Keep Files Small → 큰 파일 수정 시 문제 발생
- Know Your Limits → 모델이 자신의 한계 인식 부족
- Read the Docs → 학습된 지식 외의 정보에서 오류 발생
- Culture Eats Strategy → 코드 스타일 일관성 부족
- Walking Skeleton → 최소한의 시스템 작동 우선 필요
- Rule of Three → 코드 중복 시 리팩토링 필요
대형 언어 모델의 사고 과정을 추적하기 | GeekNews
- [원문] Tracing the thoughts of a large language model \ Anthropic
AI 시대에 Modern Data Stack이 중요한 이유 | GeekNews
- [원문] Why the modern data stack matters in the AI age
LLM 함수 호출은 확장되지 않는다; 코드 오케스트레이션이 더 간단하고 효과적임 | GeekNews
- [원문] LLM function calls don't scale; code orchestration is simpler, more effective. | jngiam
- LLM이 툴 호출 결과 전체를 처리하는 방식은 느리고 비용이 크며 확장에 불리함
- 대신, 출력 스키마 기반으로 구조화된 데이터를 코드로 처리하도록 LLM이 오케스트레이션하게 하는 방식을 제안
- 이 접근은 코드를 통한 함수 체이닝과 변수 기반 메모리 관리로 대량 데이터 처리에 적합
- 코드 실행 기반 데이터 처리 방식은 LLM이 직접 데이터를 복원하지 않으므로 정확성과 확장성이 뛰어남
- 보안이 확보된 AI 런타임 환경 구축이 새로운 과제로 부상 중이며, 지속 가능하고 상태 유지가 가능한 실행 환경이 필요함
생각의 환상: 추론 LLM의 한계 이해하기 | GeekNews
- [원문] https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
- 대형 추론 모델(Large Reasoning Models, LRMs)은 복잡한 문제 해결에서 일정 수준의 성능 향상을 보였으나, 근본적 한계 및 확장성 문제가 명확하게 드러남
- LRMs는 문제 난이도가 높아질수록 추론 과정이 급격히 붕괴되는 현상을 보이며, 분석 결과, 추론 노력(토큰 사용량)도 임계점을 넘어가면 오히려 줄어드는 역설적 현상 발생
- 동일 연산 자원 하에서 표준 LLM과 LRMs를 비교하면, 저난이도에서는 표준 LLM이 더 우수하나, 중간 난이도에서는 LRMs가 유리, 고난이도에서는 모두 실패함
- LRMs는 명시적 알고리듬 추론 및 일관된 사고 과정에서 결정적인 한계를 보이며, 각 퍼즐 환경에 따라 상이하거나 비일관적인 행동을 보임
- 이러한 연구를 통해 현재 추론 모델의 신뢰도 문제와 확장성 한계가 확인됨에 따라, 차세대 인공지능 설계에는 정밀한 평가 및 구조 개선이 요구됨
- 애플의 "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity" 논문
LLM 임베딩 완전 해부: 시각적이고 직관적인 가이드 | GeekNews
- [원문] LLM Embeddings Explained: A Visual and Intuitive Guide - a Hugging Face Space by hesamation
- 임베딩은 LLM의 의미적 뼈대로, 텍스트를 수치 벡터로 변환해 모델이 이해할 수 있도록 만듦
- 임베딩의 발전은 카운트 기반, TF-IDF 등 통계적 기법부터 Word2Vec, BERT, GPT 계열 등 현대적 방식까지 다양한 변화를 거쳐왔음
- 좋은 임베딩은 단어의 의미적 유사성 보존과 차원 수 조절의 균형이 중요하며, LLM에서는 학습 데이터와 과제에 최적화되어 함께 훈련됨
- TF-IDF, Word2Vec, BERT 등 대표 임베딩 방식을 사례와 시각화로 설명하며, 특히 LLM의 임베딩은 입력 토큰을 고차원 벡터로 변환 후, 문맥에 따라 계층적으로 업데이트됨
- 토치 임베딩 레이어, 임베딩 벡터 그래프 분석 등 실습 코드와 시각 자료를 통해 임베딩의 실제 동작 원리를 직관적으로 이해할 수 있도록 안내함
지난 5년간 LLM 컨텍스트 윈도우의 크기 확장 타임라인 | GeekNews
- [원문] A timeline of LLM Context Windows, Over the past 5 years. (done right this time) : r/LocalLLaMA
- 5년간 각 회사들이 2K에서 2M까지 경쟁적으로 컨텍스트 크기 윈도우를 늘려옴
- 그러나 많은 사람들이 모델에 표기된 컨텍스트 윈도우 크기와 실제 활용 가능한 크기가 다르다는 점을 지적
- Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama 등 주요 모델들의 실제 성능 비교시 홍보된 것과는 꽤 많이 다른 경험들 다수
- “대규모 컨텍스트는 의미 있지만 실제로는 4–8k 근처에서만 제대로 동작한다”는 회의적 시각과, “수십만 토큰까지 실사용 가능하다”는 긍정적 경험담이 대립함
- 실사용 타임라인은 1k→2k→4k→8k→8k→8k→32k→40k, 단 Gemini 2.5 Pro만 80k 가능
AI 코딩의 함정 | GeekNews
AI를 쓸 것인가, 말 것인가 | GeekNews
이해 부채: LLM이 만든 코드가 남기는 시한폭탄 | GeekNews
LLM들은 왜 해마 이모지에서 이상 행동을 보일까? | GeekNews

References

What_Weve_Learned_From_A_Year_of_Building_with_LLMs_-_GeekNews.pdf ↩