Skip to content

Large language model

(이해할 수 있는 규칙 생성을 기반으로 하는 기계 학습 방법은 Logic learning machine 항목 참조)

대형 언어 모델(Large language model, LLM) 또는 거대 언어 모델은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다. LLM은 2018년 즈음에 모습을 드러냈으며 다양한 작업을 위해 수행된다. 이전의 특정 작업의 특수한 지도 학습 모델의 훈련 패러다임에서 벗어나 자연어 처리 연구로 초점이 옮겨졌다.

대규모 언어 모델(LLM) 은 AI 챗봇 기술을 가능하게 하는 요소이며 많은 화제를 불러일으키고 있는 주제 중 하나다. 대규모 언어 모델(LLM)의 작동 방식은 크게 3가지로 나뉘고 있다. 토큰화, 트랜스포머 모델, 프롬프트 등. 토큰화는 자연어 처리의 일부로 일반 인간 언어를 저수준 기계 시스템(LLMS)가 이해할 수 있는 시퀀스로 변환하는 작업을 말하며 여기에는 섹션에 숫자 값을 할당하고 빠른 분석을 위해 인코딩하는 작업이 수반된다. 이는 음성학의 AI 버전과 같으며 토큰화의 목적은 인공지능이 문장의 구조를 예측하기 위한 학습 가이드 또는 공식과 같은 컨텍스트 백터를 생성하는 것이 목적. 언어를 더 많이 연구하고 문장이 어떻게 구성되는지 이해할수록 특정 유형의 문장에서 다음 언어에 대한 예측이 더 정확 해진다. 이로 인해 온라인에서 사람들이 사용하는 다양한 커뮤니케이션 스타일을 재현하는 모델을 개발할 수 있다.

트랜스포머 모델은 순차적 데이터를 검사하여 어떤 단어가 서로 뒤따를 가능성이 높은지 관련 패턴을 식별하는 신경망의 일종으로 각각 다른 분석을 수행하여 어떤 단어가 호환되는지 결정하는 계층으로 구성된다. 이러한 모델은 언어를 학습하지 않고 알고리즘에 의존하여 사람이 쓴 단어를 이해하고 예를들어, 힙스터 커피 블로그를 제공함으로써 커피에 대한 표준 글을 작성하도록 학습 시킨다. 이 트랜스포머 모델이 대규모 언어 모델 LLM 언어 생성의 기초.

프롬프트는 개발자가 정보를 분석하고 토큰화하기 위해 대규모 언어 모델 LLM에 제공하는 정보로 프롬프트는 기본적으로 다양한 사용 사례에서 LLM에 도움이 되는 학습 데이터 입니다. 더 정확한 프롬프트를 받을수록 LLM은 다음 단어를 더 잘 예측하고 정확한 문장을 구성할 수 있습니다. 따라서 딥러닝 AI의 적절한 학습을 위해서는 적절한 프롬프트를 선택하는 것이 중요하다.

Categories

  • 인공 일반 지능 (Artificial general intelligence; AGI)
  • Language model - 상위 분류인 언어 모델 (LM)
  • Intelligent agent (AI Agent)
  • Generative Pre-trained Transformer#Store - GPTs 스토어의 분야별 추천 모델 모음
  • Artificial intelligence#Projects - AI 관련 온라인 도구들 추천 모음
  • Retrieval-Augmented Generation (RAG; 검색 증강 생성) - 데이터를 대규모 언어 모델(LLM)의 컨텍스트로 가져와 관련성을 개선하는 아키텍처 접근 방식
  • Groundedness Check - LLM이 생성한 답변의 신뢰도를 체킹 (LLM의 환각 현상 해결을 위함)
  • Vibe coding
  • llms.txt - LLM에게 웹사이트 이용정보를 제공하기 위한 표준 제안
  • LLaMA - Meta가 공개한 65b 파라미터 LLM
    • Llama 2 - Meta, 차세대 언어모델 Llama 2 공개
    • Llama 3 - Meta, 차세대 언어모델 Llama 3 공개
  • Bard - Microsoft AI
  • Mi:dm - KT의 자체개발 오픈소스 LLM
  • ChatLLaMA - LLaMa 기반 ChatGPT의 오픈소스 구현체
  • Microsoft Kosmos-1 - Multimodal LLM(MLLM)
  • Alpaca
  • LangChain - LLM을 외부와 연결해주는 라이브러리
  • LangFlow - LangChain을 기반으로 한 그래픽 UI
  • Semantic Kernel - CSharp, Python 같은 기존 프로그래밍 언어와 LLM AI를 결합시켜주는, Microsoft에서 만든 경량 SDK
  • Inverse Scaling Prize - 모델 사이즈가 커질수록 정답률이 하락하는 현상.
  • LlamaIndex - LLM을 외부 데이터와 연결해주는 프로젝트
  • MiniLLM - 개인용 GPU에서 LLM 실행 하기
  • OpenFlamingo - 대규모 멀티모달 모델(LMM)을 훈련/평가하기 위한 오픈소스 프레임워크
  • xturing - 나만의 LLM을 만들고 제어하기
  • Marvin - AI를 코드에 붙이기 쉽게 해주는 오픈소스 라이브러리
  • Koala - 학술 연구를 위한 대화형 모델 (LLaMA기반 챗봇)
  • Web LLM - 서버 없이 브라우저에서 Llama, RedPajama, Vicuna 같은 LLM을 WASM, WebGPU로 브라우저에서 LLM 가속하여 실행하기
  • GPTCache - LLM 질의에 대한 답변을 캐싱하는 라이브러리
  • griptape - LLM 워크플로우를 위한 파이썬 프레임워크
  • LlamaAcademy - GPT에게 코딩하는 법 가르치기
  • Simple LLM Finetuner - 초보자 친화적인 UI를 가진 LLM 튜닝 도구
  • Replit Code - 10일만에 훈련된 오픈소스 코드 생성 LLM
  • RedPajama - LLaMA 데이터셋을 재작성하는 오픈소스 프로젝트
  • StarCoder - BigCode 프로젝트가 공개한 코드용 LLM
  • SantaCoder - 11억개(1.1B) 파라미터로 학습한 코드 생성 모델
  • MPT-7B - 상업적으로 이용 가능한 오픈소스 LLM
  • Databerry - 나만의 LLM Agent를 만드는 노코드 플랫폼
  • OpenLM - 여러 LLM 호출이 가능한 OpenAI 호환 파이썬 클라이언트
  • LMQL - LLM에 쿼리하기 위한 언어
  • Open-LLaMa - LLM 작성용 완전한 트레이닝 파이프라인
  • Chat UI - HuggingChat의 코드를 오픈소스로 공개
  • guidance - LLM 제어를 위한 안내 언어
  • MLC LLM - LLM모델을 어떤 디바이스에든 배포 가능하게 해주는 오픈소스 솔루션
  • Gorilla - LLM을 위한 API 스토어
  • SuperAgent - LLM 에이전트를 프로덕션에 배포하기
  • Psychic - SaaS 데이터를 AI에 연동하는 플랫폼
  • Docta - 당신의 데이터를 위한 닥터 (e.g. 이미지 데이터의 레이블 에러 찾기)
  • Lance - ML 워크플로우에 최적화된 최신 Columnar 데이터 포맷
  • LocalAI - 셀프호스트 가능한 OpenAI 호환 API
  • LM Studio - LLM을 로컬에서 쉽게 실행하게 해주는 도구
  • DataDM - AI를 이용한 개인 데이터 비서 오픈소스
  • Lanarky - LLM을 프로덕션에 배포하기 위한 오픈소스 프레임워크
  • DeepSpeed ZeRO++ - 통신량을 4배 줄이면서 LLM과 채팅 모델 트레이닝 속도의 획기적인 향상
  • embedchain - 아무 데이터셋을 이용한 LLM 기반 봇 만들기
  • XGen-7B - 1.5T 토큰에 대해 최대 8K 시퀀스 길이로 훈련한 7B LLM
  • OpenOrca - 데이터셋 & 인스트럭션 튜닝된 언어모델 오픈소스
  • AI Companion App - 채팅 가능한 AI 동료를 만들고 호스팅하는 튜토리얼 스택(AI Getting Started Stack 기반)
  • S.A.T.U.R.D.A.Y - 음성으로 동작하는 개인 AI 비서 J.A.R.V.I.S 만들기
  • FlashAttention-2 - 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention
  • AutoChain - 가볍고 확장 및 테스트 가능한 LLM 에이전트 만들기
  • Zep - LLM/Chatbot을 위한 장기 메모리 저장소
  • liteLLM - 50개 이상의 LLM을 지원하는 프록시 서버
  • Dify - 사용하기 쉬운 LLMOps 플랫폼 오픈소스
  • pykoi - LLM을 위한 데이터 & 피드백 수집용 UI 라이브러리
  • Microsoft LIDA - LLM을 이용한 시각화/인포그래픽 자동 생성
  • LangFuse - LLM앱을 위한 오픈소스 Observability & Analytics 솔루션
  • Falcon - 180B 모델 공개 (1800억개의 파라미터가 포함된 최대 규모의 공개 언어 모델)
  • Ollama - Llama 2 및 기타 대규모 언어 모델을 로컬에서 시작 및 실행
  • PandasAI - Pandas에 생성형 AI를 도입
  • Yi 1.5 - 차세대 오픈소스 이중언어 LLM
  • Claude
  • Palico AI - LLM Application의 성능 극대화를 위한 프레임워크
  • Grokking (그로킹)
  • Q-Star (OpenAI)
  • nano-llama31 - nanoGPT 스타일의 Llama 3.1 버전
  • Browser-Use - LLM을 이용한 웹 오토메이션 오픈소스
  • Data-Formulator - AI로 데이터 시각화 생성하기
  • Firecrawl - 웹사이트 전체를 LLM에서 사용가능하게 만드는 도구
  • TinyTroupe - LLM 기반 멀티에이전트 Persona 시뮬레이션 Python 라이브러리
  • Documind - PDF 문서를 구조화된 데이터로 전환하는 오픈소스 AI 도구
  • Model Context Protocol (MCP) - Anthropic, Model Context Protocol 오픈소스로 공개
  • Hops (홉스) - AI와 대화하면서 어드민을 만들수 있는 서비스
  • DeepSeek
  • Bolt.diy - 아무 LLM으로 풀스택 앱 만들기
  • Blot.new - 브라우저에서 풀 스택 애플리케이션을 만들 수 있는 AI 개발 에이전트
  • SmolGPT - 작은 LLM을 처음부터 훈련하기 위한 최소한의 PyTorch 구현
  • Qwen
    • Qwen-Image - 네이티브 텍스트 렌더링을 적용한 이미지 생성 모델
    • Qwen-Image-Edit - 이미지 편집 전용 모델 공개
  • Open Deep Research - 오픈소스로 구현한 딥 리서치
  • Flash Learn - 에이전트 LLM을 모든 파이프라인에 연동하기
  • Grok - Grok은 xAI가 개발한 생성형 인공지능 챗봇이다.
  • TensorZero - creates a feedback loop for optimizing LLM applications — turning production data into smarter, faster, and cheaper models.
  • DeepSearcher - 로컬 오픈소스 Deep Research
  • Superglue - 코드를 자동 생성하는 오픈소스 API 커넥터
  • Spark TTS - LLM-based efficient text-to-speech AI model
  • Shiki-Stream - LLM 출력용 스트리밍 방식 코드 구문 강조
  • Sidekick - 맥용 로컬 퍼스트 LLM 챗봇 애플리케이션 오픈소스
  • Microsoft AutoGen - 차세대 LLM 어플리케이션을 위한 프레임워크
  • Onit - 맥용 로컬 오픈소스 AI 채팅 어시스턴트
  • BitNet - Microsoft, CPU에서 실행가능한 초고효율 AI 모델
  • HyperCLOVA X SEED - 네이버, 상업용 오픈소스 AI 모델
  • NotebookLM - 사용자의 자료를 팟캐스트 스타일의 대화형 오디오 콘텐츠로 생성해 주는 오디오 개요(Audio Overviews)
  • RealtimeVoiceChat - 약 500ms 지연 시간의 실시간 AI 음성 채팅
  • LegoGPT - 텍스트에서 실제로 조립 가능한 LEGO 디자인 자동 생성
  • DeerFlow - 커뮤니티 중심의 Deep Research 프레임워크
  • Spegel (Terminal Browser) - LLM을 활용해 웹페이지를 재구성하는 터미널 브라우저
  • NativeMind - 브라우저에서 실행되는 프라이빗 온디바이스 AI 어시스턴트
  • Kimi K2 - 최첨단 전문가 혼합(MoE) 언어 모델
  • OpenReasoning-Nemotron - NVIDIA, Qwen2.5-32B-Instruct(추론 모델)의 파생 모델로 수학, 코드, 과학 문제 해결 추론에 특화됨
  • any-llm - 다양한 LLM 프로바이더를 위한 단일 인터페이스
  • LL3M - 대형 언어 모델 기반 3D 모델러
  • DeepWiki - 어떤 코드베이스든 이해하기
  • LLM 시각화 | GeekNews
  • Lethal Trefecta (치명적 삼합)
  • OpenTSLM - 시계열 데이터를 이해하는 언어 모델

AI 친화적 GUI 프레임워크

한국어 오픈소스 LLM

LLM API 토큰당 가격 비교

모든 LLM 개발자가 알아야 하는 숫자

LLM을 사용할 때 중요한 숫자에 대한 정리.

  • "간결하게"를 프롬프트에 넣으면 비용을 40~90% 절약 가능.
  • GPT-4에 비해 GPT-3.5 Turbo는 가격이 50배 저렴함.
  • 벡터 검색을 위해 OpenAI 임베딩을 사용하면 GPT-3.5 Turbo보다 20배 저렴함.
  • LLaMa급 LLM을 교육하는 데에는 백만 달러(약 13억 원)가 들어감.
  • GPU별 메모리 크기 - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • 보통 모델 크기의 2배의 메모리가 필요함 - 7B = 14GB
  • 임베딩 모델은 보통 1GB 이하의 메모리를 사용함
  • LLM 요청을 일괄 처리하면 10배 이상 빨라질 수 있음.
  • 13B 모델은 토큰당 약 1MB가 필요하여, 요청을 일괄 처리하면 메모리 요구가 크게 증가함.

Language Model Stack

Sequoia가 투자한 모든 거의 모든 회사가 제품에 ChatGPT와 같은 LLM을 도입중. 자신들 네트워크내의 회사들을 조사한 내용을 통해 2개의 AI 스택을 정리

LLM API Stack

  • LLM APIs : OpenAI, Anthropic, Cohere
  • Vector DB: AWS, pgvector, Pinecone, Qdrant, Weaviate, Chroma
  • Frameworks: LangChain, LlamaIndex, Anarchy
  • Text-To-Speech: Resemble.AI, ElevenLabs, Wellsaid
  • Monitoring: DISTYL, Guardrails, Helicone, HoveHive, Autoblocks

Custom Model Training / Tuning Stack

  • Compute: AWS, Azure, Google Cloud, Foundary, Lamba, MosaicML, Modal, Fireworks.ai
  • Model Hub: Hugging Face, Replicate
  • Frameworks: PyTorch, TensorFlow
  • Experimentation: Weights & Biases
  • Monitoring/Observability: Robust Intelligence, Gantry, Arthur, arise, Whylabs
  • Hosting: Replicate, HuggingFace

키포인트

  • 대부분의 회사가 LLM을 제품에 구축중
  • 언어 모델 API, 검색 및 오케스트레이션에 중점. 오픈소스 사용이 증가
  • 회사들은 언어 모델을 자신의 컨텍스트에 맞고 커스터마이징 하고 싶어함
  • 현재는 LLM API 스택과 모델 트레이닝 스택이 분리된 것처럼 보이지만 점점 합쳐질 것
  • 스택은 점점 더 개발자 친화적이 되어감
  • 언어 모델이 완전히 채택되려면 언어 모델의 신뢰성(품질, 데이터 프라이버시, 보안)을 높여야 함
  • 언어 모델 어플리케이션은 점 점 더 멀티 모달이 되어갈 것
  • 아직 극 초반임

파인 튜닝 방법

nanoGPT 기반의 오픈소스 구현체인 Lit-Parrot 으로 LoRAAdapter 를 이용해서 파인 튜닝하기

  • StableLM, Pythia, RedPajama 같은 LLM을 지원
  • PyTorch의 FlashAttention 이용
  • 예제에서는 Databricks의 Dolly 2.0 인스트럭션 데이터셋으로 RedPajama-INCITE 모델을 튜닝

텍스트 임베딩: Parquet와 Polars

텍스트 임베딩은 대형 언어 모델에서 생성된 벡터로, 단어, 문장, 문서를 수치적으로 표현하는 방식임

LLM을 활용한 코드 작성시 유의할 14가지

  1. 합리적인 기대치 설정 (Set reasonable expectations)
  2. 학습 데이터의 종료 시점을 고려 (Account for training cut-off dates)
  3. 문맥의 중요성 (Context is king)
  4. 다양한 옵션 제시 요청 (Ask them for options)
  5. 구체적인 지시 제시 (Tell them exactly what to do)
  6. 작성된 코드는 반드시 테스트 (You have to test what it writes!)
  7. 대화형 상호작용 유지 (Remember it’s a conversation)
  8. 코드를 실행할 수 있는 도구 활용 (Use tools that can run the code for you)
  9. ‘바이브 코딩’으로 학습 (Vibe-coding is a great way to learn)
  10. Claude Code를 활용한 상세 예제 (A detailed example using Claude Code)
  11. 인간의 개입 필요성 (Be ready for the human to take over)
  12. 개발 속도의 극대화 (The biggest advantage is speed of development)
  13. 기존 전문 지식의 증폭 (LLMs amplify existing expertise)
  14. 추가 기능: 코드베이스 관련 질문 응답 (Bonus: answering questions about codebases)

LLM의 시대에 추천시스템 및 검색 개선방법

Recommender system#LLM의 시대에 추천시스템 및 검색 개선방법 항목 참조.

소비자용 하드웨어에서 사용할 수 있는 최고의 LLM은 뭔가요?

5060ti + 16GB VRAM 에서 기본 대화가 가능한 모델을 찾음. 가능하면 빠르고 거의 실시간으로 동작하면 좋겠음

답변 정리

  • 다양한 8B~14B, 30B 파라미터 모델이 16GB VRAM에서 효율적으로 동작하며, 대표적으로 Qwen3, DeepSeek-R1, Mistral, Gemma3 등이 추천됨
  • 로컬 LLM 실행은 성능, 비용, 프라이버시 면에서 장점이 있지만, 실제 성능과 모델 적합성은 개별 실험과 튜닝이 필수임
  • 모델 파일의 크기, 퀀타이즈(양자화) 수준(Q4~Q6 등), GPU·RAM 분산 로딩 등 하드웨어 활용 최적화 팁이 활발히 공유됨
  • Ollama, LM Studio, llama.cpp, OpenWebUI 등 다양한 도구가 존재하며, 각각 접근성·유연성·모델 관리 편의성에서 장단점이 있음
  • 커뮤니티 정보(예: Reddit LocalLLaMA)는 최신 소식·실전 팁 제공에 유용하지만, 과장·오정보도 많으니 주의 필요함

주요 LLM 추천 및 활용 팁

  • Qwen3: 8B/14B/30B 등 다양한 파라미터 모델이 존재하며, 8B~14B 모델은 16GB VRAM에서 쾌적하게 사용 가능함. reasoning(추론) 성능이 뛰어나고, MoE(Expert Mixture) 구조로 일부 모델은 RAM 오프로딩으로 큰 사이즈도 운용 가능함
  • DeepSeek-R1-0528-Qwen3-8B: 최신 8B 모델 중 reasoning 성능이 뛰어나다는 평가를 받음. 8B 기준 4GB~8GB VRAM에 Q4~Q6 양자화 시 적합함
  • Mistral Small 3.1: 14B 또는 24B 모델이 추천되며, 대화 품질이 우수하고 비교적 censorship이 적은 편임. 특히 이미지 입력 기능이 있음
  • Gemma3: Google 제공 모델로, 직관적 대화에 강점. 다만 HR성향이 강해 disclaimer가 많다는 평이 있음. hallucination도 상대적으로 잦음
  • Devstral: Mistral 기반의 대형 모델. 30B 이상은 16GB VRAM에서는 속도가 느려질 수 있음
  • Dolphin, Abliterated: censorship이 적은 버전으로, routine이 아닌 상황에 유용함

하드웨어 및 실행 환경 최적화

  • 퀀타이즈(양자화) 설정: Q4, Q5, Q6 등 양자화 수치가 낮을수록 VRAM 사용량이 줄어듦(Q4 ≒ 파라미터/2, Q6 ≒ 파라미터*0.75). 다만 품질 저하에 유의 필요
  • VRAM 용량 산정: 예시 - 8B Q4는 4GB, 14B Q4는 7GB, 30B Q4는 약 15GB VRAM 필요
  • RAM 오프로딩: VRAM 부족시 일부 레이어를 CPU 메모리로 offload 가능. 다만 속도 저하 감수 필요
  • KV 캐시 양자화: context window를 늘릴 때 q4 정도로 캐시 압축 사용 추천

도구 및 프론트엔드

  • llama.cpp: 다양한 플랫폼에서 빠르고 유연하게 동작. REST API 및 간단한 React 프론트엔드 지원. 모델을 VRAM과 RAM에 분산해 로딩 가능
  • Ollama: 쉬운 설치 및 모델 스위칭, GUI 프론트엔드와 연동 용이. 단, 최신 모델 지원 및 context 크기 한계가 있음
  • LM Studio: GUI 환경에서 모델 관리가 편리. VRAM 적합 여부 예측 기능
  • OpenWebUI: 프론트엔드 전용. llama.cpp, vllm 등 백엔드 필요. 여러 모델 동시에 관리 및 테스트 가능
  • KoboldCPP, SillyTavern: 롤플레잉/스토리텔링/게임 등 특화 프론트엔드

커뮤니티와 실전 정보

  • Reddit LocalLLaMA, HuggingFace, Discord: 최신 모델 소식, 사용법, 벤치마크, 세팅 노하우 등이 활발히 공유됨. 단, 오정보나 groupthink 현상에 주의 필요
  • 벤치마크 사이트: livebench.ai, aider.chat 등에서 최신 모델별 점수 및 랭킹 제공

활용 목적과 실제 경험

  • 프라이버시, 비용 절감: 민감 데이터/프라이버시 이슈 또는 반복적 사용 시 클라우드 대비 로컬 모델 활용도가 높음
  • 실험 및 튜닝 자유도: 특화 도메인 파인튜닝, 샘플링 전략, 프롬프트 엔지니어링 등에서 API 모델 대비 유연함
  • 응용 사례: RAG(검색 결합 생성), 로컬 데이터베이스 결합, 에이전트 자동화, 오프라인 도우미 등 다양한 실전 예시

자주 나오는 질문 및 팁

  • 모델 크기 산정: 파라미터 수 × 비트(quantization)/8 = 약 VRAM 요구량(GB). 오버헤드와 context window도 고려 필요
  • 모델별 특징: Qwen3 reasoning/코딩, Gemma3 직관/회화, Mistral censorship 적음, Dolphin/abliterated uncensor 버전 등
  • 성능 비교: 직접 벤치마크 및 커스텀 테스트로 자신에게 맞는 모델 탐색 권장

결론 및 실전 조언

  • "최고의 모델"은 없으며, 하드웨어·용도·선호에 따라 Qwen3, Mistral, Gemma3 등 최신 8B~14B 모델을 다양하게 시도해 보는 것이 최선임
  • 모델 파일 크기, 양자화, context 크기 등 사양 맞춤이 매우 중요하므로 여러 모델을 직접 테스트하고 커뮤니티 팁을 활용하는 것이 효과적임

See also

Favorite site

Tutorials

Guide

Article

References


  1. What_Weve_Learned_From_A_Year_of_Building_with_LLMs_-_GeekNews.pdf