Reinforcement learning

강화 학습(Reinforcement learning)은 기계 학습이 다루는 문제 의 하나로, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

Summery

환경은 일반적으로 유한상태 마르코프 결정 프로세스(MDP)로 표현할 수 있다. 이런 관점에서 강화 학습 알고리즘은 동적 계획법과 깊은 연관이 있다. MDP에서 상태 전이 확률(state transition probabilities)와 포상은 확률에 따른 값일 수도 있고, 이미 결정되어 있는 값일 수도 있다.

강화 학습이 원하지 않는 행동을 명시적으로 수정하는 지도 학습과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다. 이 탐험과 이용 사이에 있는 트레이드오프는 Multi-armed bandit과 같은 문제에서 알아 볼 수 있다.

Documentation

Fundamental of Reinforcement Learning: https://www.gitbook.com/book/dnddnjs/rl/details; Fundamental_of_Reinforcement_Learning.pdf; 모두의연구소 - 강화 학습의 기본

Learning Monocular Reactive UAV Control in. Cluttered Natural Environments.: Learning_Monocular_Reactive_UAV_Control-ppt.pdf; Learning_Monocular_Reactive_UAV_Control.pdf; https://arxiv.org/abs/1211.1690

Favorite site

Wikipedia (en) Reinforcement learning
Reinforcement Learning and Artificial Intelligence (강화학습과 인공지능)
강화 학습(RL)의 수학적 기초 : 책과 유튜브 강의 | GeekNews
- [원문] Github - MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning - This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning."
- Mathematical Foundations of Reinforcement Learning - YouTube - 영문 유튜브 강의 재생목록

Reinforcement learning

Summery

Categories

Documentation

See also

Favorite site