Reinforcement learning from human feedback

머신러닝에서 사람의 피드백을 통한 강화 학습이나 사람의 선호도를 통한 강화 학습은 사람의 피드백에서 직접 "보상 모델"을 훈련시키고 모델을 보상 함수로 사용하여 다음과 같은 최적화 알고리즘을 통한 강화 학습을 통해 에이전트의 정책을 최적화하는 기술입니다. 근접 정책 최적화.