벨만기대방정식

by Ryuzy 2026. 3. 5. 01:27

1. 벨만 기대 방정식

벨만 기대 방정식(Bellman Expectation Equation)은 어떤 상태의 가치(Value)가 “현재 받을 보상”과 “다음 상태의 가치의 기대값”으로 표현된다는 관계식입니다. 즉, 지금 이 상태가 얼마나 좋은지는 단순히 현재 보상만으로 결정되는 것이 아니라, 현재 보상 + (정책에 따라 도달할 다음 상태들의 가치의 평균)으로 재귀적으로 정의된다는 의미입니다. 여기서 ‘기대(expectation)’라는 말은, 다음 상태가 확률적으로 결정되기 때문에 그 확률을 고려한 평균값을 사용한다는 뜻입니다. 쉽게 말하면, 벨만 기대 방정식은 “현재 가치 = 지금 얻는 것 + 미래 가치의 평균”이라는 강화학습의 기본 원리를 수학적으로 표현한 식입니다.

V(s)=R+γV(s′)

1. 현재만 보기

“지금 받는 보상만 고려한 상태”입니다.

V(s)≈R

2. 한 번, 두 번 확장

V(s)=R+γR′

V(s)=R+γR′+γ2R′′

지금 보상
다음 보상까지 할인해서 더함

3. 무한 확장

이걸 한 줄로 줄이면 벨만 기대 방정식입니다. “현재 = 즉시 보상 + 할인된 미래 가치” 입니다.

V(s)=R+γR′+γ2R′′+γ3R′′′+⋯

2. 현실 MDP에 적용

행동이 여러 개 있고
다음 상태가 확률적으로 여러 개 나오고
정책에 따라 행동 확률이 달라지고
보상도 확률적이고

이 식은 사실 아래 4개를 차례대로 평균내는 구조입니다.

∑aπ(a∣s)
→ 상태에서 정책이 고르는 행동들의 평균(기대)
∑s′P(s′∣s,a)
→ 그 행동을 했을 때 나올 수 있는 다음 상태들의 평균(기대)
R(s,a,s′)
→ 그 전이에서 받는 즉시 보상
γVπ(s′)
→ 다음 상태 가치의 할인된 미래 부분

확률합(∑) 대신 “평균” 표기인 기대값으로 쓰면 더 직관적입니다.

상태 s 에서 정책대로 움직일 때, (지금 보상 + 할인된 다음 상태 가치)의 평균이 Vπ(s)

3. 술취한 사람 문제

술취한 사람 문제는 강화학습이나 마르코프 과정에서 자주 나오는 아주 대표적인 예제입니다. 이 문제에서는 사람이 길 위에 서 있는데, 술에 취해 있어서 원하는 방향으로 정확히 움직이지 못하고 확률적으로 비틀거리며 이동한다고 가정합니다. 그래서 “지금 이 위치가 안전한가?”, “이 위치에서 앞으로 좋은 결과를 얻을 가능성이 얼마나 되는가?”를 계산하는 문제로 바꿀 수 있습니다. 이때 현재 위치를 상태(State)로 보고, 다음 위치로 이동하는 확률을 상태 전이 확률로 표현하면 벨만 기대 방정식을 적용할 수 있습니다.

1. 1차원 길

[집] --- A --- B --- C --- [술집]

맨 왼쪽 집(Home) 은 도착하면 좋은 상태입니다.
맨 오른쪽 술집(Bar) 은 도착하면 좋지 않은 상태입니다.
중간 상태는 A, B, C 입니다.
술취한 사람은 현재 위치에서 왼쪽 또는 오른쪽으로 움직이지만, 확률적으로 움직입니다.

2. 상태(State) 정의

Home : 집, 종료 상태
A
B
C
Bar : 술집, 종료 상태

S={Home,A,B,C,Bar}

3. 전이 확률(Transition Probability)

예를 들어 중간 상태에서는 다음과 같이 움직인다고 하겠습니다.

A에서는
- 50% 확률로 Home으로 이동
- 50% 확률로 B로 이동
B에서는
- 50% 확률로 A로 이동
- 50% 확률로 C로 이동
C에서는
- 50% 확률로 B로 이동
- 50% 확률로 Bar로 이동

즉, 확률적으로 왼쪽 또는 오른쪽으로 한 칸 이동합니다.

4. 보상(Reward) 설정

보상은 다음처럼 줄 수 있습니다.

Home에 도착하면 +1, 집에 도착하면 좋은 결과
Bar에 도착하면 -1, 술집에 도착하면 나쁜 결과
그 외 중간 이동은 0, 중간 과정에서는 특별한 보상이 없음

5. 각 상태의 의미

이제 각 상태의 가치는 이렇게 해석할 수 있습니다.

A의 가치가 높다면 → 집에 갈 가능성이 높고 좋은 상태
C의 가치가 낮다면 → 술집으로 갈 가능성이 높고 나쁜 상태
B는 중간 정도

가치(Value)는 “그 상태에서 시작했을 때 앞으로 얼마나 좋은 결과를 기대할 수 있는가?” 를 나타내는 점수입니다.

6. 벨만 기대 방정식 적용

V(s)=즉시 보상+γ×다음 상태 가치의 기대값

할인율은 γ=1, 미래 보상을 그대로 다 반영하겠다는 뜻

7. 종료 상태의 가치

V(Home)=1
V(Bar)=−1

8. 벨만 기대 방정식

A에서는

50% 확률로 Home
50% 확률로 B

B에서는

50% 확률로 A
50% 확률로 C

C에서는

50% 확률로 B
50% 확률로 Bar

이 숫자들은 각 상태가 얼마나 좋은 상태인지를 나타냅니다.

A = 0.5
→ 집에 더 가까워서 비교적 좋은 상태입니다.
B = 0
→ 중립적인 상태입니다. 집과 술집 사이에서 딱 가운데 느낌입니다.
C = -0.5
→ 술집에 더 가까워서 좋지 않은 상태입니다.

즉, 상태 가치 함수는 위치의 좋고 나쁨을 점수화한 것이라고 볼 수 있습니다.

Home(+1) --- A(+0.5) --- B(0) --- C(-0.5) --- Bar(-1)

'인공지능 > 강화학습' 카테고리의 다른 글

Deep RL (0)	2026.03.11
TD Learning (0)	2026.03.10
Monte Carlo Learning (0)	2026.03.09
Markov Decision Process (0)	2026.03.03
강화학습 (0)	2026.03.03

류지 프로젝트

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문