강화학습

불확실성 하에서, 최종적으로 최대의 보상을 받을 수 있도록 연속적으로 이어지는 일련의 결정들을 내리도록 학습시키는 것

(How can an intelligent agent learn to make a good sequence of decision under uncertainty? - CS234 1강)

(예제) CS234 2강에서 나온 화성 탐사선 예시

화성탐사선이 현재 S4에 있고, S3와 S5로 가는 행동을 결정한다고 가정합니다. 단 이 때 보상은 S1과 S3에서 1, S7에서는 10, 나머지는 0이라고 가정합니다.
일련의 결정들

당장의 결정만 내리고 끝나는 것이 아닌 의사 결정의 과정이 계속해서 반복 됨

이전에 내린 결정의 결과가 후의 상황에 영향을 미침. 즉, 이전의 결정에 의해 상황이 계속해서 변하기 때문에 미래의 상태가 어떨지 불확실함

강화학습에서는 여러 번 결정을 내리기 때문에 그에 따른 보상도 여러 번받는데 , 강화 학습의 궁극적인 목표는 최종에 받는 보상을 최대화 하는 것

예제를 통한 설명
용어
1. Agent : 결정을 내리는 인공지능을 의미하며, 위 예제에서는 화성탐사선으로 볼 수 있습니다.
2. State ****: Agent가 결정을 내릴 때 사용되는 상황들을 의미합니다.
3. Action: Agent가 내리는 결정을 의미합니다.
4. Policy : State를 입력받았을 때 어떤 행동을 취할 지 출력하는 함수입니다. 즉, 해당 State에서 보상을 최대화 하기 위한 Action을 알려줍니다.
탐색

다른 머신러닝, 딥러닝의 학습과정과는 다르게 사전에 주어진 데이터를 사용하는 것이 아니라, Agent가 학습하면서 얻은 데이터만을 사용합니다.