불확실성 하에서, 최종적으로 최대의 보상을 받을 수 있도록 연속적으로 이어지는 일련의 결정들을 내리도록 학습시키는 것
(How can an intelligent agent learn to make a good sequence of decision under uncertainty? - CS234 1강)
(예제) CS234 2강에서 나온 화성 탐사선 예시
화성탐사선이 현재 S4에 있고, S3와 S5로 가는 행동을 결정한다고 가정합니다. 단 이 때 보상은 S1과 S3에서 1, S7에서는 10, 나머지는 0이라고 가정합니다.
일련의 결정들
당장의 결정만 내리고 끝나는 것이 아닌 의사 결정의 과정이 계속해서 반복 됨
이전에 내린 결정의 결과가 후의 상황에 영향을 미침. 즉, 이전의 결정에 의해 상황이 계속해서 변하기 때문에 미래의 상태가 어떨지 불확실함
강화학습에서는 여러 번 결정을 내리기 때문에 그에 따른 보상도 여러 번받는데 , 강화 학습의 궁극적인 목표는 최종에 받는 보상을 최대화 하는 것
다른 머신러닝, 딥러닝의 학습과정과는 다르게 사전에 주어진 데이터를 사용하는 것이 아니라, Agent가 학습하면서 얻은 데이터만을 사용합니다.