Action1 ML #16 : 머신러닝 강화학습 MDP 특징 및 파라미터 (Markov Decision Process) 강화학습이란 인간이 어떤 행동을 습득했을 때와 비슷한 방법으로 컴퓨터를 학습시키는 방법입니다. 어떠한 공식이 있는 것이 아니고, 경험에 의해 모델을 학습하는 것입니다. 강화학습의 목적은 Optimal Policy를 찾는 것이며, 누적보상을 최대화하는 Policy를 찾도록 학습합니다. 이번 포스팅에서는 강화학습에 대해 소개해보겠습니다. 강화학습이란?학습에 의해 답이 정해지는 것이 아니고, 모르는 환경에서 보상 값(Reward)이 최대가 되게 행동하도록 컴퓨터를 학습시키는 방법이 강화학습입니다. 기존에 학습했던 지도학습, 비지도학습(자율학습)과 비교한 강화학습의 특성은 아래와 같습니다. - 지도학습 : 정답을 알 수 있는 학습- 비지도학습 : 정답이 없는 값의 특성 파악- 강화학습 : 정답은 모르지만 최대 .. 2020. 4. 26. 이전 1 다음