[강화학습] REINFORCE 알고리즘 설명 및 구현
안녕하세요. 오늘은 강화학습의 Policy Gradient 알고리즘 중 가장 기초가 되는 알고리즘인 REINFORCE에 대해서 공부해보겠습니다. 이 글을 통해 REINFORCE 알고리즘의 원리와 어떻게 구현하는지를 아실 수 있습니다. 구현 코드는 Gymansium 공식문서에 있는 예제코드를 초심자들이 쉽게 접근할 수 있도록 수정하였습니다. 재미있는 사실은 REINFROCE는 " ‘RE’ward ‘I’ncrement ‘N’on-negative ‘F’actor times ‘O’ffset ‘R’einforcement times ‘C’haracteristic ‘E’ligibility "의 줄임말이라고 합니다. 심층강화학습에서는 크게 두 가지 방식의 알고리즘이 있습니다. 1. Value based (ex. DQN..
2023.12.13