액터-크리틱 구조란 무엇인가요?강화학습에서 "액터-크리틱(Actor-Critic)" 구조는 정책 경사법(Policy Gradient)의 성능과 학습 안정성을 높이기 위해 고안된 방법입니다. 쉽게 말해, 행동을 결정하는 주체(Actor)와 그 행동이 얼마나 좋은지 평가하는 주체(Critic)를 따로 분리해서 함께 학습하는 방식입니다.Actor (액터): 현재 상태에서 어떤 행동을 할지 결정합니다.Critic (크리틱): Actor가 한 행동이 얼마나 좋은지를 평가합니다.둘이 협력하면서, Actor는 더 좋은 행동을 선택하도록 배우고, Critic은 평가를 점점 더 정확하게 합니다.왜 액터-크리틱 구조가 필요한가요?기존 정책 경사법(REINFORCE 같은)은 행동을 한 후 결과를 전부 지켜본 다음에야 정책을..