인공지능의 발전/머신러닝의 부상

DeepMind의 딥 Q 네트워크(DQN)

Seven AI Workers 2025. 5. 1. 18:37

 

1. DQN(Deep Q-Network)의 핵심 아이디어

  • Q 테이블 대신 딥러닝 사용: 전통적인 Q-러닝에서는 상태-행동 쌍마다 Q값을 일일이 저장했지만, DQN에서는 '딥러닝 모델(신경망)'이 주어진 상태를 보고 각 행동의 Q값을 예측합니다.
  • 입력은 화면 이미지: 예를 들어, 고전 게임 '브레이크아웃(Breakout)'에서는 현재 게임 화면의 픽셀 이미지를 신경망에 넣어줍니다.
  • 출력은 각 행동별 Q값: 신경망은 가능한 행동(예: 왼쪽으로 이동, 오른쪽으로 이동, 가만히 있기) 각각에 대한 예상 보상(Q값)을 출력합니다. 가장 높은 Q값을 가진 행동을 선택하면 됩니다.


2. DQN이 도입한 두 가지 주요 기술

(1) 리플레이 메모리(Experience Replay)

  • 에이전트(인공지능)가 게임을 하면서 경험한 상태-행동-보상-다음 상태 정보를 모두 저장합니다.
  • 학습할 때는 이 저장된 경험들 중 일부를 무작위로 뽑아 학습합니다.
  • 이렇게 하면 학습이 더 안정적이고 효율적이 됩니다. (특정 상황에만 편향되지 않고 다양한 경험을 학습하게 됨)

(2) 타겟 네트워크(Target Network)

  • 학습할 때 사용하는 Q값을 계산할 때, 현재 학습 중인 신경망과는 별도로 일정 주기마다 복사된 "타겟 신경망"을 사용합니다.
  • 이렇게 하면, 학습이 덜 불안정해지고, 목표가 너무 빠르게 바뀌는 문제를 막을 수 있습니다.

3. DQN의 성과

  • DeepMind의 DQN은 'Breakout', 'Space Invaders', 'Pong' 같은 아타리 게임들에서 인간 수준 이상의 성능을 보여주었습니다.
  • 게임 화면만 보고도 스스로 규칙을 이해하고 최적의 플레이 방법을 학습하는 데 성공했습니다.

4. DQN 이후의 주요 발전: Double DQN, Dueling DQN, Prioritized Replay

딥 Q 네트워크(DQN)가 강화학습에서 큰 성공을 거두면서, 연구자들은 DQN의 성능과 안정성을 더욱 향상시키기 위한 다양한 개선 기법을 제안했습니다. 대표적인 발전으로는 Double DQN, Dueling DQN, 그리고 Prioritized Replay가 있습니다. 이들 각각을 초보자도 이해할 수 있도록 쉽게 설명하겠습니다.


(1) Double DQN: 과도한 가치 추정 문제 해결

배경 문제: DQN은 목표 Q값을 계산할 때 같은 신경망을 두 번 사용합니다. 즉, 어떤 행동이 가장 좋은지와 그 행동의 가치를 모두 하나의 네트워크로 계산합니다. 이로 인해 Q값이 실제보다 과대평가(overestimation)되는 문제가 발생할 수 있습니다.

Double DQN 아이디어: 이를 해결하기 위해 Double DQN은 행동을 선택하는 네트워크와, 그 행동의 가치를 평가하는 네트워크를 분리합니다.

  • 하나의 네트워크로 최적 행동을 선택하고,
  • 다른(타깃) 네트워크로 그 행동의 Q값을 계산합니다.

결과: 더 안정적이고 덜 편향된 학습이 가능해졌습니다. 알파고를 만든 DeepMind도 이 방식을 활용했습니다.


(2) Dueling DQN: 상태 평가와 행동 선택을 분리

기본 아이디어: 어떤 상태(state)에서는 어떤 행동을 하든 결과가 비슷할 수 있습니다. 예를 들어, 게임에서 캐릭터가 가만히 있어도 좋은 상황이 있을 수 있습니다.

Dueling DQN 구조: 네트워크를 두 갈래로 나눕니다.

  • Value Stream: 현재 상태가 얼마나 좋은지를 평가합니다.
  • Advantage Stream: 각 행동이 평균보다 얼마나 더 좋은지를 계산합니다.

그리고 이 둘을 합쳐 최종 Q값을 만듭니다.

결과: 덜 중요한 행동들로 인한 잡음을 줄이고, 더 빠르고 효율적인 학습이 가능해졌습니다.


(3) Prioritized Experience Replay: 중요한 경험을 더 많이 학습

기존 문제: DQN은 과거 경험을 무작위로 뽑아서 학습합니다. 하지만 모든 경험이 똑같이 중요한 것은 아닙니다.

Prioritized Replay 아이디어:

  • 더 중요한(예: 예측이 많이 틀린) 경험을 우선적으로 학습합니다.
  • 경험마다 우선순위(priority)를 설정하고, 우선순위가 높은 샘플을 더 자주 선택합니다.

결과: 중요한 경험을 빠르게 학습할 수 있어, 학습 속도와 성능이 개선됩니다.


4. DQN의 한계를 넘어서는 진화

기법 해결한 문제 주요 효과
Double DQN Q값 과대평가 안정적인 가치 추정
Dueling DQN 비효율적 학습 상태 가치와 행동 가치 분리
Prioritized Replay 비효율적 샘플링 빠르고 효과적인 학습

이러한 기술들은 각각 DQN의 약점을 보완하고, 보다 복잡하고 어려운 문제를 풀 수 있도록 강화학습의 성능을 한층 끌어올리는 데 기여했습니다.