[ 트렌드] [World Model 시리즈 #4] h(은닉 상태)란 무엇인가 — 가장 헷갈리는 개념 쉽게 이해하기
h(은닉 상태)란 무엇인가 — 가장 헷갈리는 개념 쉽게 이해하기
World Model 시리즈 네 번째 글입니다. V-M-C 구조에서 가장 헷갈리는 개념인 h(hidden state, 은닉 상태)를 운전 비유로 풀어봅니다.
h를 "머릿속 느낌"이라고 생각해보세요
운전하다가 친구가 갑자기 물어봅니다.
"지금 도로 상황이 어때?"
이때 여러분이 대답할 수 있는 건 지금 눈에 보이는 것만이 아닙니다.
"지금 직진 구간인데, 아까부터 커브가 계속 나왔으니까 곧 또 커브가 나올 것 같고, 뒤에 트럭이 따라오고 있어서 급브레이크는 안 되고, 비가 오기 시작해서 노면이 점점 미끄러워지는 중이야."
이 대답에는 지금 보이는 것 + 지금까지 경험한 것 + 앞으로에 대한 감이 전부 섞여 있죠. 이걸 말로 정확히 설명하기는 어렵지만, 여러분의 머릿속에는 그 종합적인 느낌이 존재합니다.
그게 바로 h입니다.
z와 h의 차이
z = 지금 이 순간 눈에 보이는 것 (스냅샷 사진 1장)
h = 지금까지의 경험이 쌓인 머릿속 상태 (기억 + 맥락 + 예감)
구체적으로 비교하면:
z가 아는 것:
"지금 앞에 직선 도로가 있다"
→ 이 순간의 화면을 32개 숫자로 요약한 것
h가 아는 것:
"3초 전에 왼쪽 커브를 지났다"
"속도가 점점 빨라지고 있다"
"이 패턴이면 곧 오른쪽 커브가 나올 것 같다"
"아까 비슷한 구간에서 벽에 부딪힌 적 있다"
→ 시간의 흐름 속에서 쌓인 맥락 전체
z만으로는 사진 한 장만 보는 것과 같아요. h가 있어야 영화 전체의 맥락을 이해할 수 있습니다.
왜 "은닉"이라고 부르나
"은닉 상태(hidden state)"라는 이름이 혼란을 줍니다. 뭔가 숨겨진 것 같지만, 실제 의미는 이렇습니다:
우리가 직접 볼 수 있는 것:
- 입력 (게임 화면) ← 눈에 보임
- 출력 (행동) ← 눈에 보임
우리가 직접 볼 수 없는 것:
- h (뇌 내부 상태) ← 눈에 안 보임 = "은닉"
숨기려고 숨긴 게 아니라, M(MDN-RNN)의 내부에서만 존재하는 상태이기 때문에 "은닉"이라고 부르는 겁니다. 여러분의 머릿속 생각을 남이 직접 들여다볼 수 없는 것과 같아요.
h가 업데이트되는 과정
매 순간 h는 새로운 정보를 받아서 업데이트됩니다.
시간 1: 직선 도로를 본다
h₁ = "직선 도로 진행 중"
시간 2: 왼쪽 커브가 나타난다
h₂ = "직선 지나고 왼쪽 커브 진입" (h₁의 기억 + 새 정보)
시간 3: 커브를 지나 다시 직선
h₃ = "커브 하나 지남, 다음 뭐가 올지 대비" (h₂의 기억 + 새 정보)
매번 이전 기억(h)에 새로운 경험(z, a)을 더해서 업데이트합니다. 그래서 h는 시간이 지날수록 점점 더 풍부한 맥락을 담게 됩니다.
그래서 C가 h를 쓰는 이유
Controller(C)가 행동을 결정할 때 z만 쓰면 "지금 사진 한 장"만 보고 판단하는 거예요. 하지만 h도 함께 쓰면 "지금까지의 맥락 + 앞으로의 예감"까지 고려해서 판단할 수 있습니다.
z만 쓸 때: "앞에 직선이네 → 직진"
z + h 쓸 때: "앞에 직선이지만, 패턴상 곧 커브가 올 거야 → 속도 줄이자"
h 덕분에 더 멀리 내다보는 판단이 가능한 거죠.
핵심 정리
| 개념 | 의미 | 비유 |
|---|---|---|
| z | 지금 이 순간의 관측 요약 | 사진 1장 |
| h | 시간에 걸쳐 쌓인 내부 상태 | 영화 전체의 맥락 |
| "은닉" | 외부에서 직접 볼 수 없는 내부 값 | 남이 못 보는 내 머릿속 |
h = 지금까지 본 것과 한 것이 쌓여서 만들어진 머릿속 종합 상태 (256개 숫자)
다음 글에서는 두 번째 논문인 LeCun의 JEPA — "A Path Towards Autonomous Machine Intelligence" (2022)를 다룹니다.