3.1.3 인공지능을 위한 확률과 통계 기초
인공지능(AI)은 불확실한 상황에서의 의사결정을 자주 요구받습니다. 이럴 때 확률 이론은 불확실성을 정량화하고 관리할 수 있는 수학적 틀을 제공하며, 통계학은 데이터를 기반으로 패턴을 추론하고 모델의 매개변수를 학습하는 도구입니다. AI 시스템이 불완전하거나 잡음이 많은 정보 속에서도 합리적인 판단을 내릴 수 있게 해주는 토대가 바로 이 두 가지입니다.
확률에는 두 가지 주요 해석 방식이 있습니다: 빈도주의(frequentist)와 베이지안(Bayesian)입니다. 빈도주의는 반복된 시행에서 특정 사건이 일어날 비율로 확률을 정의합니다(예: 동전을 무수히 던졌을 때 앞면이 나올 확률은 0.5). 반면, 베이지안 해석은 확률을 신념의 정도로 보고, 새로운 정보가 들어올 때 기존 신념(사전 확률)을 갱신합니다. AI에서는 두 방식 모두 유용하며, 특히 불확실성을 다루는 현대적 모델에서는 베이지안 접근이 점점 더 중요해지고 있습니다.
🤹 확률의 기본 개념
📈 확률변수(Random Variable)
확률변수는 어떤 사건의 결과를 수치로 나타낸 것으로, 불확실한 값을 갖는 변수입니다. 예를 들어 이메일이 스팸인지 아닌지를 나타내는 변수는 이산형(discrete) 확률변수이며, 로봇의 위치처럼 연속적인 공간 상의 값을 가지는 경우는 연속형(continuous) 확률변수입니다.
📊 확률분포(Probability Distribution)
- 이산형 변수는 각 가능한 값에 대해 확률 질량 함수(PMF)를 가집니다.
- 연속형 변수는 특정 구간 내 값이 나올 확률을 나타내는 확률 밀도 함수(PDF)를 가집니다.
A.I.에서는 다음과 같은 분포들이 자주 등장합니다:
- 베르누이 분포: 참/거짓 같은 이진 이벤트
- 이항 분포: 여러 번의 베르누이 시행
- 포아송 분포: 시간당 발생 횟수
- 정규분포(Gaussian): 연속 데이터의 노이즈 모델링 등
🌍 예시: 정규분포는 평균을 중심으로 종 모양의 곡선을 가지며, 데이터가 평균 근처에 몰려있을 확률이 높음을 의미합니다. 이는 센서 노이즈나 측정 오차를 모델링할 때 자주 사용됩니다.
🤔 조건부 확률(Conditional Probability)
P(A | B)는 "사건 B가 발생했을 때, 사건 A가 발생할 확률"입니다. 이는 AI 시스템이 새로운 정보를 바탕으로 신념을 업데이트하는 데 필수적인 개념입니다.
예를 들어, 이메일에 'discount'라는 단어가 있을 때 스팸일 확률은 P(Spam | "discount")로 표현됩니다.
💬 독립성(Independence)
두 사건 A, B가 서로 영향을 주지 않는다면 독립(independent)이라고 하며,
를 만족합니다. AI 모델에서는 이 가정을 통해 계산을 단순화하며, 대표적으로 나이브 베이즈 분류기는 이 독립성을 가정합니다.
🧮 기대값(Expected Value)과 분산
기댓값은 확률변수의 장기 평균값이며, 의사결정에 있어 중요한 기준점입니다. 예를 들어 AI 에이전트가 다양한 행동 중 어떤 것을 선택할지 결정할 때 기대보상(expected reward)이 가장 높은 행동을 선택할 수 있습니다.
⚖️ 베이즈 정리(Bayes' Theorem)
베이즈 정리는 다음과 같은 수식으로 주어집니다:
이는 어떤 가설 A가 주어졌을 때 증거 B가 나타날 확률(P(B|A)), A에 대한 사전 확률(P(A)), 그리고 증거 자체의 확률(P(B))을 바탕으로 B 관측 이후 A의 사후 확률(P(A|B))을 계산합니다.
📢 이메일 스팸 필터링 예시
- 전체 메일 중 25%가 스팸: P(Spam) = 0.25
- 스팸 메일 중 45%는 'FREE' 포함: P("FREE"|Spam) = 0.45
- 전체 메일 중 20%가 'FREE' 포함: P("FREE") = 0.20
그러면, P(Spam|"FREE") = (0.45 × 0.25) / 0.20 = 0.5625, 즉 약 56% 확률로 스팸이라고 판단됩니다.
🤓 빈도주의 vs 베이즈 접근
접근 | 개념 | 확률 해석 | 대표 방법 |
빈도주의 | 반복 실험 기반 | 장기 빈도 | 최대우도추정(MLE), 신뢰구간 |
베이즈 | 주관적 신념 갱신 | 믿음의 정도 | 사전-사후 확률 갱신, 베타분포 |
베이즈 접근은 적은 데이터 상황이나 사전 지식이 있을 때 강력하며, 점점 더 많은 AI 분야에서 사용되고 있습니다. 다만 계산량이 많고, 사전 분포 선택이 민감하다는 단점도 존재합니다.
📊 확률 기반 AI 시스템의 실제 응용
🚀 베이지안 네트워크
의료 진단, 결함 탐지 등에 사용되며, 변수 간의 조건부 의존성을 그래프로 표현한 모델입니다. 증상이 주어졌을 때, 어떤 질병일 가능성이 높은지를 베이즈 정리를 활용해 계산합니다.
🌍 강화학습과 MDP
AI 에이전트가 확률적 환경에서 최적의 행동을 선택하는 문제는 마르코프 결정 과정(MDP)으로 모델링됩니다. 기대 보상을 극대화하는 정책(policy)을 찾기 위해 기댓값 계산이 핵심입니다.
🤖 로봇과 센서 융합
로봇은 센서 데이터의 불확실성을 칼만 필터나 입자 필터 같은 방법으로 처리하여 자신의 위치를 추정합니다. 이는 베이즈 정리를 시간에 따라 반복 적용하는 형태로 볼 수 있습니다.
📲 자연어처리
언어 모델은 다음 단어가 등장할 확률을 예측하여 문장을 생성합니다. GPT도 내부적으로는 다음 단어의 조건부 확률을 계산하고 선택합니다.
📖 결론
AI에서 확률과 통계는 불확실성을 다루는 언어입니다. 데이터로부터 모델을 학습시키고, 새로운 증거가 등장할 때 예측을 업데이트하며, 신뢰도까지 계산할 수 있게 해줍니다.
- 빈도주의: 많은 데이터와 실험 기반의 강건한 해석
- 베이즈 접근: 사전 지식과 불확실성을 반영하는 유연한 모델링
현대 AI는 이 두 가지 관점을 모두 활용하며, 특히 자율주행, 의료 진단, 로보틱스, 언어 처리 등 고위험 영역에서는 확률 기반 추론 능력이 핵심 경쟁력입니다.