1. DQN(Deep Q-Network)의 핵심 아이디어
- Q 테이블 대신 딥러닝 사용: 전통적인 Q-러닝에서는 상태-행동 쌍마다 Q값을 일일이 저장했지만, DQN에서는 '딥러닝 모델(신경망)'이 주어진 상태를 보고 각 행동의 Q값을 예측합니다.
- 입력은 화면 이미지: 예를 들어, 고전 게임 '브레이크아웃(Breakout)'에서는 현재 게임 화면의 픽셀 이미지를 신경망에 넣어줍니다.
- 출력은 각 행동별 Q값: 신경망은 가능한 행동(예: 왼쪽으로 이동, 오른쪽으로 이동, 가만히 있기) 각각에 대한 예상 보상(Q값)을 출력합니다. 가장 높은 Q값을 가진 행동을 선택하면 됩니다.
2. DQN이 도입한 두 가지 주요 기술
(1) 리플레이 메모리(Experience Replay)
- 에이전트(인공지능)가 게임을 하면서 경험한 상태-행동-보상-다음 상태 정보를 모두 저장합니다.
- 학습할 때는 이 저장된 경험들 중 일부를 무작위로 뽑아 학습합니다.
- 이렇게 하면 학습이 더 안정적이고 효율적이 됩니다. (특정 상황에만 편향되지 않고 다양한 경험을 학습하게 됨)
(2) 타겟 네트워크(Target Network)
- 학습할 때 사용하는 Q값을 계산할 때, 현재 학습 중인 신경망과는 별도로 일정 주기마다 복사된 "타겟 신경망"을 사용합니다.
- 이렇게 하면, 학습이 덜 불안정해지고, 목표가 너무 빠르게 바뀌는 문제를 막을 수 있습니다.
3. DQN의 성과
- DeepMind의 DQN은 'Breakout', 'Space Invaders', 'Pong' 같은 아타리 게임들에서 인간 수준 이상의 성능을 보여주었습니다.
- 게임 화면만 보고도 스스로 규칙을 이해하고 최적의 플레이 방법을 학습하는 데 성공했습니다.
4. DQN 이후의 주요 발전: Double DQN, Dueling DQN, Prioritized Replay
딥 Q 네트워크(DQN)가 강화학습에서 큰 성공을 거두면서, 연구자들은 DQN의 성능과 안정성을 더욱 향상시키기 위한 다양한 개선 기법을 제안했습니다. 대표적인 발전으로는 Double DQN, Dueling DQN, 그리고 Prioritized Replay가 있습니다. 이들 각각을 초보자도 이해할 수 있도록 쉽게 설명하겠습니다.
(1) Double DQN: 과도한 가치 추정 문제 해결
배경 문제: DQN은 목표 Q값을 계산할 때 같은 신경망을 두 번 사용합니다. 즉, 어떤 행동이 가장 좋은지와 그 행동의 가치를 모두 하나의 네트워크로 계산합니다. 이로 인해 Q값이 실제보다 과대평가(overestimation)되는 문제가 발생할 수 있습니다.
Double DQN 아이디어: 이를 해결하기 위해 Double DQN은 행동을 선택하는 네트워크와, 그 행동의 가치를 평가하는 네트워크를 분리합니다.
- 하나의 네트워크로 최적 행동을 선택하고,
- 다른(타깃) 네트워크로 그 행동의 Q값을 계산합니다.
결과: 더 안정적이고 덜 편향된 학습이 가능해졌습니다. 알파고를 만든 DeepMind도 이 방식을 활용했습니다.
(2) Dueling DQN: 상태 평가와 행동 선택을 분리
기본 아이디어: 어떤 상태(state)에서는 어떤 행동을 하든 결과가 비슷할 수 있습니다. 예를 들어, 게임에서 캐릭터가 가만히 있어도 좋은 상황이 있을 수 있습니다.
Dueling DQN 구조: 네트워크를 두 갈래로 나눕니다.
- Value Stream: 현재 상태가 얼마나 좋은지를 평가합니다.
- Advantage Stream: 각 행동이 평균보다 얼마나 더 좋은지를 계산합니다.
그리고 이 둘을 합쳐 최종 Q값을 만듭니다.
결과: 덜 중요한 행동들로 인한 잡음을 줄이고, 더 빠르고 효율적인 학습이 가능해졌습니다.
(3) Prioritized Experience Replay: 중요한 경험을 더 많이 학습
기존 문제: DQN은 과거 경험을 무작위로 뽑아서 학습합니다. 하지만 모든 경험이 똑같이 중요한 것은 아닙니다.
Prioritized Replay 아이디어:
- 더 중요한(예: 예측이 많이 틀린) 경험을 우선적으로 학습합니다.
- 경험마다 우선순위(priority)를 설정하고, 우선순위가 높은 샘플을 더 자주 선택합니다.
결과: 중요한 경험을 빠르게 학습할 수 있어, 학습 속도와 성능이 개선됩니다.
4. DQN의 한계를 넘어서는 진화
기법 | 해결한 문제 | 주요 효과 |
Double DQN | Q값 과대평가 | 안정적인 가치 추정 |
Dueling DQN | 비효율적 학습 | 상태 가치와 행동 가치 분리 |
Prioritized Replay | 비효율적 샘플링 | 빠르고 효과적인 학습 |
이러한 기술들은 각각 DQN의 약점을 보완하고, 보다 복잡하고 어려운 문제를 풀 수 있도록 강화학습의 성능을 한층 끌어올리는 데 기여했습니다.
'인공지능의 발전 > 머신러닝의 부상' 카테고리의 다른 글
2.3-c. 21세기 인공지능(AI)의 확산 (2) | 2025.05.07 |
---|---|
Rainbow DQN과 최근 강화학습 기술 발전 (0) | 2025.05.01 |
딥러닝과 강화학습의 결합 (2) | 2025.05.01 |
액터-크리틱(Actor-Critic) 구조 (0) | 2025.04.29 |
정책 경사법(Policy Gradient) (2) | 2025.04.29 |