강화학습은 "어떤 행동을 해야 가장 좋은 결과를 얻을까?"를 배우는 방법입니다. 그런데 복잡한 상황에서는 행동을 하나하나 모두 따져보는 게 어렵습니다. 이럴 때 등장하는 것이 "정책 경사법(Policy Gradient)"입니다.정책 경사법은 간단히 말해, "좋은 행동을 더 자주 하도록 정책(policy)을 조금씩 조정하는 방법"입니다. 여기서 정책이란, 주어진 상황에서 어떤 행동을 할지 결정하는 방법(또는 확률 분포)을 뜻합니다.정책: 어떤 상황(state)에서 어떤 행동(action)을 할 확률을 정해주는 것경사(Gradient): 현재 정책을 조금 더 좋은 방향으로 바꾸기 위해 필요한 조정 방향정책 경사법은 정책을 직접 조정하면서 학습합니다. 좋은 행동을 했을 때는 그 행동을 더 잘하도록 정책을 강화..