앞서 살펴본 Double DQN, Dueling DQN, Prioritized Replay는 각각 강화학습의 성능을 높이기 위해 개발된 기술들이었습니다. 하지만 2017년에 DeepMind는 이 다양한 개선 기술을 하나로 통합한 "Rainbow DQN"을 발표했습니다. 초보자도 이해할 수 있도록 Rainbow DQN과 최근 강화학습 발전 흐름을 쉽게 정리해보겠습니다.
1. Rainbow DQN: 여러 기법을 하나로 묶다
Rainbow DQN은 기존 DQN을 발전시키기 위해 다음 여섯 가지 주요 기술을 결합한 강화학습 알고리즘입니다.
- Double DQN: 과도한 가치 추정(overestimation) 문제를 줄임
- Dueling Network Architecture: 상태(state)의 가치를 별도로 추정해 학습 효율 향상
- Prioritized Experience Replay: 중요한 경험을 우선 학습하여 빠른 성능 향상
- Multi-step Learning: 단순한 한 단계 보상 대신 여러 단계에 걸친 누적 보상을 활용해 학습 속도 증가
- Distributional RL: 보상이 단일 수치가 아닌 분포로 표현되어 더 세밀한 예측 가능
- Noisy Nets: 정책 탐험(exploration)을 위한 무작위성(randomness)을 네트워크 자체에 도입해 더 효과적으로 새로운 행동 탐색
요약: Rainbow DQN은 기존 좋은 기법들을 모두 모아 "최적의 DQN"을 만들자는 시도였습니다. 이를 통해 기존 DQN보다 훨씬 더 빠르고 안정적으로 학습할 수 있게 되었고, Atari 게임 같은 환경에서 최고 성능을 기록했습니다.
2. 최근 강화학습의 추가 발전 흐름
Rainbow DQN 이후에도 강화학습은 꾸준히 발전해왔습니다. 주요 흐름을 소개합니다.
(1) Efficient Exploration (효율적 탐험)
- 기존 무작위 탐험 방식은 비효율적일 수 있습니다.
- 이를 해결하기 위해 Curiosity-driven Learning (호기심 기반 학습)이나 Count-based Exploration (방문하지 않은 상태를 보상하는 방법) 등이 연구되었습니다.
(2) Model-Based Reinforcement Learning
- 기존 방법들은 환경과 상호작용을 통해 직접 학습하는데, 이 과정이 느립니다.
- 최근에는 환경 자체를 예측하는 모델을 학습해서, 이 가짜 환경(simulated environment) 안에서 빠르게 연습하는 기법들이 등장했습니다. 대표 사례로 MuZero(DeepMind, 2019)가 있습니다.
(3) Offline Reinforcement Learning (오프라인 강화학습)
- 기존에는 직접 환경과 상호작용해야 했지만, 이제는 미리 수집된 데이터로만 학습할 수 있는 방법들도 개발되고 있습니다.
- 현실 데이터가 귀중한 의료, 로봇 제어, 금융 분야에서 특히 주목받고 있습니다.
(4) Large-scale RL (대규모 강화학습)
- 더 큰 모델, 더 많은 데이터, 더 긴 학습으로 강화학습 성능을 극대화하는 흐름도 등장했습니다.
- 예시: OpenAI Five(도타2 프로게이머를 이긴 AI), AlphaStar(스타크래프트2 프로게이머를 이긴 AI)
3. Rainbow DQN 이후 강화학습의 주요 진화 흐름
(1) MuZero (DeepMind, 2019)
개념: MuZero는 기존 강화학습 방법과 달리, "환경의 실제 규칙"을 몰라도 스스로 학습할 수 있는 모델입니다. 기존 방법들은 환경의 규칙(모델)을 알아야 예측하거나 최적 행동을 학습할 수 있었지만, MuZero는 규칙을 추정하면서 동시에 최적 행동을 학습합니다.
핵심 특징:
- 환경의 실제 상태나 전이 확률을 몰라도 됨
- 대신 '가짜 모델'(Dynamics Model)을 스스로 학습
- 보상 예측, 가치 예측, 정책 예측을 동시에 수행
성과:
- 바둑, 체스, 아타리 게임 등에서 AlphaZero 수준 이상의 성능 달성
- 모델 기반 강화학습(Model-based RL)과 모델 프리 강화학습(Model-free RL)의 장점을 결합
쉽게 말하면: "규칙을 모르는 게임에서도 스스로 규칙을 알아내고 이기는 방법까지 동시에 배우는 AI"
(2) DreamerV3 (DeepMind, 2023)
개념: Dreamer 시리즈는 "꿈꾸는 AI"라는 개념으로, 실제 환경에서 매번 실험하지 않고, 머릿속에서 상상으로 시행착오를 반복하며 학습합니다. DreamerV3는 특히 범용성(다양한 환경)과 샘플 효율성(적은 데이터로 빠르게 학습)을 크게 개선한 버전입니다.
핵심 특징:
- 세계 모델(World Model)을 먼저 학습 (환경의 요약된 내부 표현)
- 이 세계 모델 안에서 미래를 상상하며 강화학습을 수행
- 실제 환경과 상호작용을 최소화하면서 학습
성과:
- 로봇 제어, 아타리 게임, 3D 환경 등 다양한 영역에서 SOTA(최고 성능) 기록
쉽게 말하면: "실제 시험해보지 않고 머릿속으로 상상 훈련만으로도 최고의 실력을 갖춘 AI"
(3) Decision Transformer (OpenAI 등, 2021)
개념: Decision Transformer는 강화학습을 기존 방식처럼 가치함수를 예측하는 문제로 풀지 않고, '시퀀스 예측(순차 예측)' 문제로 변환한 혁신적인 접근입니다. GPT-3처럼 큰 Transformer를 이용해 행동을 예측합니다.
핵심 특징:
- 과거 관찰(상태) + 행동 + 누적 보상 시퀀스를 입력으로 사용
- 주어진 목표(예: 높은 점수)를 달성하는 최적의 행동을 예측
- 별도로 가치함수나 정책을 학습하지 않음
성과:
- 다양한 표준 강화학습 벤치마크에서 기존 강화학습 기법과 비슷하거나 더 나은 성과
- 데이터 효율성과 범용성 측면에서 강점
쉽게 말하면: "AI에게 과거 경기 기록을 보여주고, 목표를 제시하면, 스스로 미래에 어떤 행동을 해야 하는지 예측하게 만드는 방법"
(4) 최근 강화학습 발전 주요 흐름 요약 정리
기법 | 특징 | 비유 |
MuZero | 규칙 모르는 환경에서도 스스로 규칙 추정 + 최적 행동 학습 | "처음 보는 게임도 하면서 규칙과 이기는 방법을 동시에 배움" |
DreamerV3 | 상상(모델 안)으로 시행착오하며 빠르게 학습 | "머릿속 시뮬레이션으로 운동 연습하는 선수" |
Decision Transformer | 강화학습을 GPT처럼 시퀀스 예측 문제로 바꾼 접근 | "과거 경기 데이터를 학습해 목표에 맞게 행동 계획 세우는 AI" |
'인공지능의 발전 > 머신러닝의 부상' 카테고리의 다른 글
기초 모델과 생성형 AI (3) | 2025.05.07 |
---|---|
2.3-c. 21세기 인공지능(AI)의 확산 (2) | 2025.05.07 |
DeepMind의 딥 Q 네트워크(DQN) (0) | 2025.05.01 |
딥러닝과 강화학습의 결합 (2) | 2025.05.01 |
액터-크리틱(Actor-Critic) 구조 (0) | 2025.04.29 |