인공지능의 발전/머신러닝의 부상

Rainbow DQN과 최근 강화학습 기술 발전

Seven AI Workers 2025. 5. 1. 18:45

앞서 살펴본 Double DQN, Dueling DQN, Prioritized Replay는 각각 강화학습의 성능을 높이기 위해 개발된 기술들이었습니다. 하지만 2017년에 DeepMind는 이 다양한 개선 기술을 하나로 통합한 "Rainbow DQN"을 발표했습니다. 초보자도 이해할 수 있도록 Rainbow DQN과 최근 강화학습 발전 흐름을 쉽게 정리해보겠습니다.


1. Rainbow DQN: 여러 기법을 하나로 묶다

Rainbow DQN은 기존 DQN을 발전시키기 위해 다음 여섯 가지 주요 기술을 결합한 강화학습 알고리즘입니다.

  • Double DQN: 과도한 가치 추정(overestimation) 문제를 줄임
  • Dueling Network Architecture: 상태(state)의 가치를 별도로 추정해 학습 효율 향상
  • Prioritized Experience Replay: 중요한 경험을 우선 학습하여 빠른 성능 향상
  • Multi-step Learning: 단순한 한 단계 보상 대신 여러 단계에 걸친 누적 보상을 활용해 학습 속도 증가
  • Distributional RL: 보상이 단일 수치가 아닌 분포로 표현되어 더 세밀한 예측 가능
  • Noisy Nets: 정책 탐험(exploration)을 위한 무작위성(randomness)을 네트워크 자체에 도입해 더 효과적으로 새로운 행동 탐색

요약: Rainbow DQN은 기존 좋은 기법들을 모두 모아 "최적의 DQN"을 만들자는 시도였습니다. 이를 통해 기존 DQN보다 훨씬 더 빠르고 안정적으로 학습할 수 있게 되었고, Atari 게임 같은 환경에서 최고 성능을 기록했습니다.


2. 최근 강화학습의 추가 발전 흐름

Rainbow DQN 이후에도 강화학습은 꾸준히 발전해왔습니다. 주요 흐름을 소개합니다.

(1) Efficient Exploration (효율적 탐험)

  • 기존 무작위 탐험 방식은 비효율적일 수 있습니다.
  • 이를 해결하기 위해 Curiosity-driven Learning (호기심 기반 학습)이나 Count-based Exploration (방문하지 않은 상태를 보상하는 방법) 등이 연구되었습니다.

(2) Model-Based Reinforcement Learning

  • 기존 방법들은 환경과 상호작용을 통해 직접 학습하는데, 이 과정이 느립니다.
  • 최근에는 환경 자체를 예측하는 모델을 학습해서, 이 가짜 환경(simulated environment) 안에서 빠르게 연습하는 기법들이 등장했습니다. 대표 사례로 MuZero(DeepMind, 2019)가 있습니다.

(3) Offline Reinforcement Learning (오프라인 강화학습)

  • 기존에는 직접 환경과 상호작용해야 했지만, 이제는 미리 수집된 데이터로만 학습할 수 있는 방법들도 개발되고 있습니다.
  • 현실 데이터가 귀중한 의료, 로봇 제어, 금융 분야에서 특히 주목받고 있습니다.

(4) Large-scale RL (대규모 강화학습)

  • 더 큰 모델, 더 많은 데이터, 더 긴 학습으로 강화학습 성능을 극대화하는 흐름도 등장했습니다.
  • 예시: OpenAI Five(도타2 프로게이머를 이긴 AI), AlphaStar(스타크래프트2 프로게이머를 이긴 AI)

3. Rainbow DQN 이후 강화학습의 주요 진화 흐름


(1) MuZero (DeepMind, 2019)

개념: MuZero는 기존 강화학습 방법과 달리, "환경의 실제 규칙"을 몰라도 스스로 학습할 수 있는 모델입니다. 기존 방법들은 환경의 규칙(모델)을 알아야 예측하거나 최적 행동을 학습할 수 있었지만, MuZero는 규칙을 추정하면서 동시에 최적 행동을 학습합니다.

핵심 특징:

  • 환경의 실제 상태나 전이 확률을 몰라도 됨
  • 대신 '가짜 모델'(Dynamics Model)을 스스로 학습
  • 보상 예측, 가치 예측, 정책 예측을 동시에 수행

성과:

  • 바둑, 체스, 아타리 게임 등에서 AlphaZero 수준 이상의 성능 달성
  • 모델 기반 강화학습(Model-based RL)과 모델 프리 강화학습(Model-free RL)의 장점을 결합

쉽게 말하면: "규칙을 모르는 게임에서도 스스로 규칙을 알아내고 이기는 방법까지 동시에 배우는 AI"


(2) DreamerV3 (DeepMind, 2023)

개념: Dreamer 시리즈는 "꿈꾸는 AI"라는 개념으로, 실제 환경에서 매번 실험하지 않고, 머릿속에서 상상으로 시행착오를 반복하며 학습합니다. DreamerV3는 특히 범용성(다양한 환경)과 샘플 효율성(적은 데이터로 빠르게 학습)을 크게 개선한 버전입니다.

핵심 특징:

  • 세계 모델(World Model)을 먼저 학습 (환경의 요약된 내부 표현)
  • 이 세계 모델 안에서 미래를 상상하며 강화학습을 수행
  • 실제 환경과 상호작용을 최소화하면서 학습

성과:

  • 로봇 제어, 아타리 게임, 3D 환경 등 다양한 영역에서 SOTA(최고 성능) 기록

쉽게 말하면: "실제 시험해보지 않고 머릿속으로 상상 훈련만으로도 최고의 실력을 갖춘 AI"


(3) Decision Transformer (OpenAI 등, 2021)

개념: Decision Transformer는 강화학습을 기존 방식처럼 가치함수를 예측하는 문제로 풀지 않고, '시퀀스 예측(순차 예측)' 문제로 변환한 혁신적인 접근입니다. GPT-3처럼 큰 Transformer를 이용해 행동을 예측합니다.

핵심 특징:

  • 과거 관찰(상태) + 행동 + 누적 보상 시퀀스를 입력으로 사용
  • 주어진 목표(예: 높은 점수)를 달성하는 최적의 행동을 예측
  • 별도로 가치함수나 정책을 학습하지 않음

성과:

  • 다양한 표준 강화학습 벤치마크에서 기존 강화학습 기법과 비슷하거나 더 나은 성과
  • 데이터 효율성과 범용성 측면에서 강점

쉽게 말하면: "AI에게 과거 경기 기록을 보여주고, 목표를 제시하면, 스스로 미래에 어떤 행동을 해야 하는지 예측하게 만드는 방법"


(4) 최근 강화학습 발전 주요 흐름 요약 정리

기법 특징 비유
MuZero 규칙 모르는 환경에서도 스스로 규칙 추정 + 최적 행동 학습 "처음 보는 게임도 하면서 규칙과 이기는 방법을 동시에 배움"
DreamerV3 상상(모델 안)으로 시행착오하며 빠르게 학습 "머릿속 시뮬레이션으로 운동 연습하는 선수"
Decision Transformer 강화학습을 GPT처럼 시퀀스 예측 문제로 바꾼 접근 "과거 경기 데이터를 학습해 목표에 맞게 행동 계획 세우는 AI"