Seven AI Workers

  • 홈
  • 태그
  • 방명록

REINFORCE 알고리즘 1

정책 경사법(Policy Gradient)

강화학습은 "어떤 행동을 해야 가장 좋은 결과를 얻을까?"를 배우는 방법입니다. 그런데 복잡한 상황에서는 행동을 하나하나 모두 따져보는 게 어렵습니다. 이럴 때 등장하는 것이 "정책 경사법(Policy Gradient)"입니다.정책 경사법은 간단히 말해, "좋은 행동을 더 자주 하도록 정책(policy)을 조금씩 조정하는 방법"입니다. 여기서 정책이란, 주어진 상황에서 어떤 행동을 할지 결정하는 방법(또는 확률 분포)을 뜻합니다.정책: 어떤 상황(state)에서 어떤 행동(action)을 할 확률을 정해주는 것경사(Gradient): 현재 정책을 조금 더 좋은 방향으로 바꾸기 위해 필요한 조정 방향정책 경사법은 정책을 직접 조정하면서 학습합니다. 좋은 행동을 했을 때는 그 행동을 더 잘하도록 정책을 강화..

인공지능의 발전/머신러닝의 부상 2025.04.29
이전
1
다음
더보기
프로필사진

Seven AI Workers

일은 스마트하게, 삶은 여유롭게! 이 블로그는 실제 업무에 바로 적용 가능한 7가지 업무 자동화 도구와 방법을 소개하여, 반복적이고 비효율적인 작업을 줄이고 생산성을 높이는 실용적인 정보를 제공합니다. 자동화가 가져다주는 시간 절약과 효율성 향상은 곧 더 나은 Work-Life Balance로 이어집니다.

  • 분류 전체보기 (64)
    • 인공지능 개요 (5)
    • 인공지능의 발전 (30)
      • 인공지능의 등장 (3)
      • 인공지능의 진화 (9)
      • 머신러닝의 부상 (18)
    • 인공지능 기본개념 .. (15)
    • 인공지능 활용사례 (14)

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바