Q-러닝(Q-Learning)

Seven AI Workers 2025. 4. 29. 20:55

Q-러닝(Q-Learning)은 1989년에 크리스 왓킨스(Chris Watkins)가 개발한 강화학습 알고리즘입니다.

Q-러닝은 경험을 통해 스스로 문제를 해결하는 방법을 배우는 알고리즘입니다. "어떤 상황(State)에서 어떤 행동(Action)을 선택하면 보상을 가장 많이 받을 수 있을까?"를 스스로 탐색하고 학습하는 방식입니다.

이때 Q-러닝은 Q값(Quality Value)이라는 숫자를 이용합니다. 이 Q값은 "현재 상태에서 어떤 행동을 했을 때 기대할 수 있는 보상의 총합"을 의미합니다.

Q-러닝은 다음과 같은 과정을 반복하면서 학습합니다:

Q값을 업데이트하는 공식은 다음과 같습니다:

Q(현재상태, 행동) ← Q(현재상태, 행동) + 학습률 × [즉시보상 + 할인율 × (다음상태에서 가능한 최고 Q값) - 현재 Q값]

쉽게 말하면, "지금 얻은 보상"과 "앞으로 받을 수 있는 보상"을 합쳐서 현재의 행동을 다시 평가하는 과정입니다.

모델이 필요 없음: 환경의 규칙(예: 다음 상태가 무엇인지, 보상이 얼마인지를 예측하는 모델)을 몰라도 학습할 수 있습니다.
오프폴리시 학습: 현재 선택한 행동과는 별개로, 항상 최적의 행동(가장 Q값이 높은 행동)을 기준으로 학습합니다.
탐험과 활용의 균형: 새로운 행동을 시도해보기도 하고, 지금까지 가장 좋은 행동을 선택하기도 합니다. 이를 ε-greedy 정책으로 조절합니다.

Q-러닝은 로봇 제어, 게임 AI, 추천 시스템, 금융 투자 전략 등 다양한 분야에 적용되고 있습니다. 특히, 복잡한 환경에서도 스스로 최적의 행동을 찾을 수 있기 때문에, 인간이 직접 규칙을 설계하기 어려운 문제에 강력한 해결책이 됩니다.

예를 들어,

Q-러닝은 간단하고 강력한 강화학습 알고리즘이지만, 실제로 적용할 때 몇 가지 한계점이 존재합니다.

상태-행동 공간이 클 때 어려움
- Q-러닝은 각 상태(state)와 행동(action) 조합마다 Q값을 테이블(table) 형태로 저장합니다.
- 그런데 상태나 행동의 수가 많아지면 테이블이 기하급수적으로 커져 메모리 사용이 비효율적이고, 학습 속도도 느려집니다.
- 예를 들어, 체스나 자율주행처럼 상태가 수천만 개 이상인 문제에서는 테이블 방식이 현실적으로 불가능합니다.
일반화(generalization)가 불가능
- 비슷한 상태라도 각각 별도로 Q값을 저장해야 합니다.
- 즉, 과거에 학습한 경험을 다른 비슷한 상황에 활용할 수 없어 학습 효율이 떨어집니다.
연속적인 상태/행동 다루기 어려움
- Q-러닝은 보통 이산적(discrete)인 상태와 행동만 다룹니다.
- 연속적인 값(예: 자동차의 속도, 위치)을 다루려면 상태나 행동을 인위적으로 조각내야 해서 비효율이 발생합니다.

이런 문제를 해결하기 위해 딥러닝 기술을 Q-러닝과 결합한 것이 딥 Q-러닝(Deep Q-Learning, DQN) 입니다.

경험 재플레이(Experience Replay)
- 과거의 경험(state, action, reward, next state)을 메모리에 저장해두고, 무작위로 샘플링하여 학습에 사용합니다.
- 이렇게 하면 데이터들이 서로 독립적(independent)이 되어 학습이 더 안정적이고 효과적입니다.
타겟 네트워크(Target Network)
- Q-값을 계산할 때 사용하는 신경망과, 학습을 업데이트할 때 사용하는 신경망을 분리합니다.
- 이로 인해 학습 중 Q값이 급격히 변동하는 문제를 줄일 수 있습니다.

학습이 불안정할 수 있어 하이퍼파라미터 튜닝이 중요하다.