[ 트렌드] [World Model 시리즈 #10] Predictive Coding — 뇌는 예측 기계다
Predictive Coding — 뇌는 예측 기계다
논문: "Predictive Coding in the Visual Cortex" (Rao & Ballard, 1999, Nature Neuroscience)
이 논문은 JEPA, Free Energy Principle, 그리고 현대 World Model의 이론적 뿌리입니다.
핵심 한 줄 요약
뇌는 세상을 수동적으로 받아들이지 않는다. 먼저 "예측"하고, 틀린 부분만 수정한다.
1. 기존 상식을 뒤집다
기존 생각: 뇌 = 카메라
우리는 보통 이렇게 생각합니다:
눈(망막) → V1 → V2 → V4 → IT → "아, 사과다!"
────────────────────────→
아래에서 위로 (Bottom-Up)
빛이 눈에 들어오면, 뇌가 한 단계씩 처리해서 "이게 뭐다"라고 인식한다는 거죠. 카메라가 사진 찍는 것처럼요.
Rao & Ballard의 발견: 뇌 = 예측 엔진
하지만 실제 뇌는 이렇게 작동합니다:
IT → V4 → V2 → V1 → 망막과 비교
←────────────────────
위에서 아래로 예측 (Top-Down)
망막 → V1 → V2 → V4 → IT
────────────────────→
오류만 위로 전달 (Bottom-Up Error)
양방향입니다! 위에서 아래로는 "이럴 거야"라는 예측이 내려오고, 아래에서 위로는 "아닌데?"라는 오류만 올라갑니다.
2. 운전 비유로 이해하기
매일 가는 출퇴근 길
당신이 매일 같은 길로 출근한다고 합시다.
첫째 날 (모든 게 새로움):
뇌: "여기 뭐가 있지?" (예측 없음)
눈: "편의점, 학교, 횡단보도, 신호등..."
뇌: 정보 폭주! 모든 걸 다 처리해야 함 💥
→ 피곤함, 긴장됨
100일째 (다 익숙함):
뇌: "다음 코너에 편의점 있을 거야" (예측)
눈: "편의점 있음" (실제)
뇌: 예측 맞음! 할 일 없음 😴
→ 멍때리면서도 운전 가능
101일째 (편의점이 카페로 바뀜):
뇌: "편의점 있을 거야" (예측)
눈: "카페가 있는데?" (실제)
뇌: "어?! 다르잖아!" ⚡ ← 이게 예측 오류!
→ 갑자기 정신 번쩍, 주의 집중
이것이 Predictive Coding의 핵심입니다:
- 예측이 맞으면 → 뇌는 거의 반응 안 함 (에너지 절약)
- 예측이 틀리면 → 오류 신호가 올라감 (주의 집중)
- 결과 → 뇌는 변화만 처리하면 되므로 극도로 효율적
3. 뇌의 계층 구조에서 작동하는 방식
각 층의 역할
┌─────────────────────────────────────────────┐
│ IT (하측두 피질) │
│ "이건 내 친구 철수의 얼굴이다" │
│ │
│ ↓ 예측: "철수 얼굴이면 이런 윤곽일 거야" │
│ ↑ 오류: "윤곽이 예측과 다름 — 안경 썼나?" │
├─────────────────────────────────────────────┤
│ V4 (색상+형태) │
│ "살색 + 타원형 + 검은 테두리" │
│ │
│ ↓ 예측: "이 부분은 이런 선분들일 거야" │
│ ↑ 오류: "선분 방향이 예측과 다름" │
├─────────────────────────────────────────────┤
│ V2 (패턴) │
│ "수직선 + 수평선 조합" │
│ │
│ ↓ 예측: "이 픽셀들은 이런 밝기일 거야" │
│ ↑ 오류: "밝기가 예측보다 어두움" │
├─────────────────────────────────────────────┤
│ V1 (기본 특징) │
│ "밝기, 방향, 대비" │
│ │
│ ↑ 실제 입력: 망막에서 들어온 원시 신호 │
└─────────────────────────────────────────────┘
핵심 원리: "Explain Away" (설명해서 없애기)
높은 층의 예측이 낮은 층의 활동을 "설명해서 없앤다"는 개념입니다.
비유: 선생님과 학생의 대화
IT(선생님): "이 사진은 사과야"
V4(학생): "선생님, 빨간 동그라미 보여요!"
IT(선생님): "그래, 사과니까 빨간 동그라미는 당연하지.
그건 이미 설명된 거야(explained away).
그거 말고 다른 거 있어?"
V4(학생): "음... 위에 초록색 뭔가가 있어요!"
IT(선생님): "그건 꼭지일 수 있겠네.
그것도 설명됐어. 또 있어?"
V4(학생): "옆에 날개 같은 게 있어요!"
IT(선생님): "날개? 사과에는 날개가 없는데!
그건 설명 안 되는 거야!" ⚡ ← 예측 오류!
예측으로 설명되는 것 → 무시 (올라가지 않음) 예측으로 설명 안 되는 것 → 오류로 올라감 (주의 집중)
4. Rao & Ballard의 실험 결과
컴퓨터 시뮬레이션
자연 이미지(풍경, 얼굴 등)를 이 모델에 학습시켰더니:
- V1에 해당하는 뉴런: 실제 뇌의 V1처럼 선분 검출기(simple cell) 가 자동으로 만들어짐
- 오류를 전달하는 뉴런: 실제 뇌에서 관찰되는 end-stopping 효과가 나타남
End-stopping: 선분이 특정 길이를 넘으면 오히려 반응이 줄어드는 현상. 기존에는 설명이 어려웠는데, Predictive Coding으로 자연스럽게 설명됨
이건 뭘 의미하냐면: 뇌가 실제로 이 방식으로 작동할 가능성이 높다는 것입니다.
기존 모델과의 차이
| 항목 | 기존 (Bottom-Up Only) | Predictive Coding |
|---|---|---|
| 정보 흐름 | 아래→위 단방향 | 양방향 (예측↓ + 오류↑) |
| 피드백의 역할 | "부가적" 조절 | 핵심 (예측 전달) |
| 처리 효율 | 매번 전체 처리 | 변화만 처리 |
| End-stopping | 별도 설명 필요 | 자연스럽게 발생 |
| 학습 방식 | 지도학습 중심 | 자기지도(예측 오류 최소화) |
5. 왜 이 논문이 AI에 중요한가?
World Model과의 연결
시리즈를 통해 배운 모든 모델이 Predictive Coding의 자손입니다:
Predictive Coding (1999) ← 여기!
│
├── Free Energy Principle (Friston, 2005~2010)
│ "뇌의 모든 활동 = 예측 오류 최소화"
│
├── World Models (Ha & Schmidhuber, 2018)
│ V가 보고, M이 예측하고, C가 행동
│ → M의 예측 = Predictive Coding의 top-down 예측
│
├── Dreamer (2020~2023)
│ RSSM이 "다음 상태"를 예측
│ → 예측 오류로 모델 업데이트 = Predictive Coding
│
└── JEPA (LeCun, 2022)
표현 공간에서 예측 + 에너지 최소화
→ Predictive Coding + Free Energy의 직계 후손
Predictive Coding이 해결한 근본 질문
| 질문 | Predictive Coding의 답 |
|---|---|
| 뇌가 왜 빠를까? | 전체가 아니라 오류만 처리하니까 |
| 피드백 연결은 왜 있을까? | 예측을 보내려고 |
| 왜 익숙한 건 못 보게 될까? | 예측이 맞으면 오류가 0이라 처리 안 하니까 |
| 왜 새로운 건 눈에 띌까? | 예측 오류가 크니까 |
| 학습은 어떻게 일어날까? | 예측 오류를 줄이는 방향으로 |
6. 일상에서 느끼는 Predictive Coding
사실 우리는 매일 Predictive Coding을 체험하고 있습니다:
현상 1: 자기 집에서 물건 잘 못 찾는 것
- 뇌가 "거실은 이렇게 생겼다"고 너무 잘 예측함
- 예측이 완벽하면 오류가 0 → 세부 변화를 못 봄
- 누가 물건 위치를 바꿔놓으면 한참 동안 못 찾음
현상 2: 빈 방에 혼자 있을 때 소리에 민감한 것
- 조용할 거라는 예측이 강함
- 작은 소리에도 예측 오류가 커짐 → 과민 반응
현상 3: 운전 중 갑자기 사람이 뛰어나오면 깜짝 놀라는 것
- "이 도로에 사람 없을 거야" 예측
- 사람 등장 = 거대한 예측 오류 ⚡
- 뇌가 즉각 경고 모드로 전환
정리: Predictive Coding의 3대 원리
원리 1: 뇌는 항상 예측한다
(Top-Down Prediction)
원리 2: 예측과 다른 것만 전달한다
(Bottom-Up Prediction Error)
원리 3: 예측 오류를 줄이는 게 학습이다
(Learning = Error Minimization)
이 세 가지가 World Models, Dreamer, JEPA, Free Energy Principle의 공통 조상 DNA입니다.
다음 글에서는 Predictive Coding을 뇌 전체로 확장한 이론, Free Energy Principle (Friston, 2010) 을 다룹니다. 예측 오류 최소화가 지각뿐 아니라 행동, 감정, 의사결정까지 설명하는 통일 이론이 됩니다.