강화학습

강화학습이란?

불확실성 하에서, 최종적으로 최대의 보상을 받을 수 있도록 연속적으로 이어지는 일련의 결정들을 내리도록 학습시키는 것

(How can an intelligent agent learn to make a good sequence of decision under uncertainty? - CS234 1강)

강화학습의 핵심

당장의 결정만 내리고 끝나는 것이 아닌 의사 결정의 과정이 계속해서 반복 됨

이전에 내린 결정의 결과가 후의 상황에 영향을 미침. 즉, 이전의 결정에 의해 상황이 계속해서 변하기 때문에 미래의 상태가 어떨지 불확실함

강화학습에서는 여러 번 결정을 내리기 때문에 그에 따른 보상도 여러 번받는데 , 강화 학습의 궁극적인 목표는 최종에 받는 보상을 최대화 하는 것

다른 머신러닝, 딥러닝의 학습과정과는 다르게 사전에 주어진 데이터를 사용하는 것이 아니라, Agent가 학습하면서 얻은 데이터만을 사용합니다.