벨만 기대 방정식(Bellman Expectation Equation)은 어떤 상태의 가치(Value)가 “현재 받을 보상”과 “다음 상태의 가치의 기대값”으로 표현된다는 관계식입니다. 즉, 지금 이 상태가 얼마나 좋은지는 단순히 현재 보상만으로 결정되는 것이 아니라, 현재 보상 + (정책에 따라 도달할 다음 상태들의 가치의 평균)으로 재귀적으로 정의된다는 의미입니다. 여기서 ‘기대(expectation)’라는 말은, 다음 상태가 확률적으로 결정되기 때문에 그 확률을 고려한 평균값을 사용한다는 뜻입니다. 쉽게 말하면, 벨만 기대 방정식은 “현재 가치 = 지금 얻는 것 + 미래 가치의 평균”이라는 강화학습의 기본 원리를 수학적으로 표현한 식입니다.
V(s)=R+γV(s′)
“지금 받는 보상만 고려한 상태”입니다.
V(s)≈R
V(s)=R+γR′
V(s)=R+γR′+γ2R′′
이걸 한 줄로 줄이면 벨만 기대 방정식입니다. “현재 = 즉시 보상 + 할인된 미래 가치” 입니다.
V(s)=R+γR′+γ2R′′+γ3R′′′+⋯

이 식은 사실 아래 4개를 차례대로 평균내는 구조입니다.
확률합(∑) 대신 “평균” 표기인 기대값으로 쓰면 더 직관적입니다.

술취한 사람 문제는 강화학습이나 마르코프 과정에서 자주 나오는 아주 대표적인 예제입니다. 이 문제에서는 사람이 길 위에 서 있는데, 술에 취해 있어서 원하는 방향으로 정확히 움직이지 못하고 확률적으로 비틀거리며 이동한다고 가정합니다. 그래서 “지금 이 위치가 안전한가?”, “이 위치에서 앞으로 좋은 결과를 얻을 가능성이 얼마나 되는가?”를 계산하는 문제로 바꿀 수 있습니다. 이때 현재 위치를 상태(State)로 보고, 다음 위치로 이동하는 확률을 상태 전이 확률로 표현하면 벨만 기대 방정식을 적용할 수 있습니다.
[집] --- A --- B --- C --- [술집]
S={Home,A,B,C,Bar}
예를 들어 중간 상태에서는 다음과 같이 움직인다고 하겠습니다.
즉, 확률적으로 왼쪽 또는 오른쪽으로 한 칸 이동합니다.
보상은 다음처럼 줄 수 있습니다.
이제 각 상태의 가치는 이렇게 해석할 수 있습니다.
가치(Value)는 “그 상태에서 시작했을 때 앞으로 얼마나 좋은 결과를 기대할 수 있는가?” 를 나타내는 점수입니다.
V(s)=즉시 보상+γ×다음 상태 가치의 기대값
할인율은 γ=1, 미래 보상을 그대로 다 반영하겠다는 뜻
V(Home)=1
V(Bar)=−1
A에서는

B에서는

C에서는



이 숫자들은 각 상태가 얼마나 좋은 상태인지를 나타냅니다.
즉, 상태 가치 함수는 위치의 좋고 나쁨을 점수화한 것이라고 볼 수 있습니다.
Home(+1) --- A(+0.5) --- B(0) --- C(-0.5) --- Bar(-1)
| Deep RL (0) | 2026.03.11 |
|---|---|
| TD Learning (0) | 2026.03.10 |
| Monte Carlo Learning (0) | 2026.03.09 |
| Markov Decision Process (0) | 2026.03.03 |
| 강화학습 (0) | 2026.03.03 |