상세 컨텐츠

본문 제목

벨만기대방정식

인공지능/강화학습

by Ryuzy 2026. 3. 5. 01:27

본문

반응형

1. 벨만 기대 방정식

벨만 기대 방정식(Bellman Expectation Equation)은 어떤 상태의 가치(Value)가 “현재 받을 보상”과 “다음 상태의 가치의 기대값”으로 표현된다는 관계식입니다. 즉, 지금 이 상태가 얼마나 좋은지는 단순히 현재 보상만으로 결정되는 것이 아니라, 현재 보상 + (정책에 따라 도달할 다음 상태들의 가치의 평균)으로 재귀적으로 정의된다는 의미입니다. 여기서 ‘기대(expectation)’라는 말은, 다음 상태가 확률적으로 결정되기 때문에 그 확률을 고려한 평균값을 사용한다는 뜻입니다. 쉽게 말하면, 벨만 기대 방정식은 “현재 가치 = 지금 얻는 것 + 미래 가치의 평균”이라는 강화학습의 기본 원리를 수학적으로 표현한 식입니다.

V(s)=R+γV(s′)

 

1. 현재만 보기

“지금 받는 보상만 고려한 상태”입니다.

V(s)≈R

 

2. 한 번, 두 번 확장

V(s)=R+γR′

 

V(s)=R+γR′+γ2R′′
  • 지금 보상
  • 다음 보상까지 할인해서 더함

 

3. 무한 확장

이걸 한 줄로 줄이면 벨만 기대 방정식입니다. “현재 = 즉시 보상 + 할인된 미래 가치” 입니다.

V(s)=R+γR′+γ2R′′+γ3R′′′+⋯

 

 

2. 현실 MDP에 적용

  • 행동이 여러 개 있고
  • 다음 상태가 확률적으로 여러 개 나오고
  • 정책에 따라 행동 확률이 달라지고
  • 보상도 확률적이고

현재=(행동확률평균)(전이확률평균)(보상+감마×다음가치)

 

이 식은 사실 아래 4개를 차례대로 평균내는 구조입니다.

  1. ∑aπ(a∣s)
    → 상태에서 정책이 고르는 행동들의 평균(기대)
  2. ∑s′P(s′∣s,a)
    → 그 행동을 했을 때 나올 수 있는 다음 상태들의 평균(기대)
  3. R(s,a,s′)
    → 그 전이에서 받는 즉시 보상
  4. γVπ(s′)
    → 다음 상태 가치의 할인된 미래 부분

확률합() 대신 “평균” 표기인 기대값으로 쓰면 더 직관적입니다.

상태 s 에서 정책대로 움직일 때, (지금 보상 + 할인된 다음 상태 가치)의 평균이 Vπ(s)

 

 

3. 술취한 사람 문제

술취한 사람 문제는 강화학습이나 마르코프 과정에서 자주 나오는 아주 대표적인 예제입니다. 이 문제에서는 사람이 길 위에 서 있는데, 술에 취해 있어서 원하는 방향으로 정확히 움직이지 못하고 확률적으로 비틀거리며 이동한다고 가정합니다. 그래서 “지금 이 위치가 안전한가?”, “이 위치에서 앞으로 좋은 결과를 얻을 가능성이 얼마나 되는가?”를 계산하는 문제로 바꿀 수 있습니다. 이때 현재 위치를 상태(State)로 보고, 다음 위치로 이동하는 확률을 상태 전이 확률로 표현하면 벨만 기대 방정식을 적용할 수 있습니다.

 

1. 1차원 길

[집] --- A --- B --- C --- [술집]
  • 맨 왼쪽 집(Home) 은 도착하면 좋은 상태입니다.
  • 맨 오른쪽 술집(Bar) 은 도착하면 좋지 않은 상태입니다.
  • 중간 상태는 A, B, C 입니다.
  • 술취한 사람은 현재 위치에서 왼쪽 또는 오른쪽으로 움직이지만, 확률적으로 움직입니다.

 

2. 상태(State) 정의

  • Home : 집, 종료 상태
  • A
  • B
  • C
  • Bar : 술집, 종료 상태
S={Home,A,B,C,Bar}

 

3. 전이 확률(Transition Probability)

예를 들어 중간 상태에서는 다음과 같이 움직인다고 하겠습니다.

  • A에서는
    • 50% 확률로 Home으로 이동
    • 50% 확률로 B로 이동
  • B에서는
    • 50% 확률로 A로 이동
    • 50% 확률로 C로 이동
  • C에서는
    • 50% 확률로 B로 이동
    • 50% 확률로 Bar로 이동

즉, 확률적으로 왼쪽 또는 오른쪽으로 한 칸 이동합니다.

 

4. 보상(Reward) 설정

보상은 다음처럼 줄 수 있습니다.

  • Home에 도착하면 +1, 집에 도착하면 좋은 결과
  • Bar에 도착하면 -1, 술집에 도착하면 나쁜 결과
  • 그 외 중간 이동은 0, 중간 과정에서는 특별한 보상이 없음

 

5. 각 상태의 의미

이제 각 상태의 가치는 이렇게 해석할 수 있습니다.

  • A의 가치가 높다면 → 집에 갈 가능성이 높고 좋은 상태
  • C의 가치가 낮다면 → 술집으로 갈 가능성이 높고 나쁜 상태
  • B는 중간 정도

가치(Value)는 “그 상태에서 시작했을 때 앞으로 얼마나 좋은 결과를 기대할 수 있는가?” 를 나타내는 점수입니다.

 

6. 벨만 기대 방정식 적용

V(s)=즉시 보상+γ×다음 상태 가치의 기대값

할인율은 γ=1, 미래 보상을 그대로 다 반영하겠다는 뜻

 

7. 종료 상태의 가치

V(Home)=1
V(Bar)=−1

 

8. 벨만 기대 방정식

A에서는

  • 50% 확률로 Home
  • 50% 확률로 B

 

B에서는

  • 50% 확률로 A
  • 50% 확률로 C

 

C에서는

  • 50% 확률로 B
  • 50% 확률로 Bar

 

 

이 숫자들은 각 상태가 얼마나 좋은 상태인지를 나타냅니다.

  • A = 0.5
    → 집에 더 가까워서 비교적 좋은 상태입니다.
  • B = 0
    → 중립적인 상태입니다. 집과 술집 사이에서 딱 가운데 느낌입니다.
  • C = -0.5
    → 술집에 더 가까워서 좋지 않은 상태입니다.

즉, 상태 가치 함수는 위치의 좋고 나쁨을 점수화한 것이라고 볼 수 있습니다.

Home(+1) --- A(+0.5) --- B(0) --- C(-0.5) --- Bar(-1)

 

 

반응형

'인공지능 > 강화학습' 카테고리의 다른 글

Deep RL  (0) 2026.03.11
TD Learning  (0) 2026.03.10
Monte Carlo Learning  (0) 2026.03.09
Markov Decision Process  (0) 2026.03.03
강화학습  (0) 2026.03.03

관련글 더보기