[ 트렌드] [World Model 시리즈 #9] JEPA의 원리와 뇌과학 이론의 연결

관리자 Lv.1
03-01 13:22 · 조회 17 · 추천 0

JEPA의 원리와 뇌과학 이론의 연결

JEPA는 단순한 AI 모델이 아니라, 뇌가 세상을 이해하는 방식을 모방한 아키텍처입니다.

JEPA의 원리 뇌과학 이론
표현 공간에서 예측 Predictive Coding (Rao & Ballard)
불필요한 디테일 버림 시각 피질의 선택적 주의 (Attention)
계층적 추상화 피질의 계층 구조 (V1→V2→V4→IT)
에너지 최소화 Free Energy Principle (Friston)

1. 표현 공간에서 예측 ↔ Predictive Coding

뇌과학: Predictive Coding (Rao & Ballard, 1999)

Rao & Ballard가 1999년 Nature Neuroscience에 발표한 이론의 핵심:

뇌는 세상을 있는 그대로 받아들이는 게 아니라, "예측"을 먼저 만들고, 틀린 부분만 수정한다.

자동차 운전 비유로 설명하면, 매일 출퇴근하는 길에서 뇌는 "다음 코너를 돌면 편의점이 있을 거야"라고 예측합니다. 실제로 편의점이 있으면? 뇌는 거의 반응하지 않습니다. 예측이 맞았으니까요. 그런데 어느 날 편의점이 없어지고 카페가 생겼다면? 그때 뇌가 크게 반응합니다. 이 "어? 다르잖아!" 하는 신호가 바로 예측 오류(prediction error) 입니다.

뇌의 시각 피질에서 이게 실제로 작동하는 방식:

  • 하향 경로 (피드백, 위→아래): 높은 영역(V4, IT)이 낮은 영역(V1, V2)에게 "이런 그림일 거야"라고 예측을 보냄
  • 상향 경로 (피드포워드, 아래→위): 낮은 영역이 "아닌데? 이 부분이 달라"라고 예측 오류만 위로 보냄

뇌는 전체 이미지를 매번 처리하는 게 아니라, 예측과 다른 부분만 처리합니다. 엄청나게 효율적이죠.

JEPA와의 연결

JEPA가 픽셀이 아닌 표현 공간에서 예측하는 것은 바로 이 원리입니다. 뇌도 망막에 맺힌 픽셀 하나하나를 예측하는 게 아닙니다. "이건 편의점이다"라는 추상적 표현(representation) 수준에서 예측합니다. JEPA의 predictor가 하는 일이 정확히 이것 — 인코딩된 표현 공간에서 다음 상태를 예측하는 겁니다.


2. 불필요한 디테일 버림 ↔ 선택적 주의 (Selective Attention)

뇌과학: 선택적 주의

지금 이 글을 읽고 있는 동안, 당신의 눈에는 화면 주변의 벽, 책상, 손가락 등이 전부 보이고 있습니다. 하지만 뇌는 그걸 다 처리하지 않습니다. 글자에만 집중하고 나머지는 무시하고 있죠. 이게 선택적 주의입니다.

시각 피질에서 이게 작동하는 방식:

  • V4 영역이 특히 중요합니다. V4 뉴런의 수용야(receptive field)는 꽤 넓어서, 여러 물체가 동시에 들어옵니다
  • 이때 여러 자극이 하나의 뉴런 안에서 경쟁합니다 (biased competition)
  • 주의를 기울인 대상이 경쟁에서 이기고, 나머지는 억제됩니다
  • 이 편향(bias)은 전두엽과 두정엽에서 피드백으로 내려옵니다

예를 들어, 운전 중 "빨간 신호등"을 찾고 있다면, 빨간색과 관련된 V4 뉴런이 강화되고, 주변의 파란 간판이나 초록 나무는 억제됩니다.

JEPA와의 연결

JEPA에서 마스킹(masking) 이 바로 이 역할입니다. 입력의 일부를 의도적으로 가리고, 남은 부분에서 가려진 부분의 표현을 예측하게 합니다. 그리고 더 중요한 건, 예측할 때 픽셀 수준의 디테일(빛의 미세한 변화, 그림자의 정확한 모양)은 버리고, 의미 있는 정보만 표현한다는 점입니다. 마치 뇌가 선택적 주의로 중요한 것만 처리하는 것처럼요.


3. 계층적 추상화 ↔ 피질의 계층 구조 (V1→V2→V4→IT)

뇌과학: 시각 피질 계층

뇌의 시각 처리는 명확한 계층 구조를 가집니다:

영역 처리하는 것 비유
V1 (1차 시각 피질) 선, 가장자리, 방향 "여기 세로줄이 있어"
V2 약간 복잡한 패턴, 윤곽 "줄들이 모여서 모서리를 만들어"
V4 색상+형태 조합 "빨간 동그라미가 있어"
IT (하측두 피질) 물체 전체 인식 "이건 사과야!"

핵심은 위로 올라갈수록 수용야가 커지고, 추상화 수준이 높아진다는 것입니다:

  • V1 뉴런: 아주 좁은 영역만 봄 (나무의 잎맥 하나)
  • IT 뉴런: 넓은 영역을 봄 (나무 전체가 "나무"라는 것을 인식)

그리고 놀라운 건, 각 층이 독립적으로 작동하는 게 아니라, 위에서 아래로 예측을 보내고, 아래에서 위로 오류를 보내는 양방향 소통을 한다는 겁니다.

JEPA와의 연결

LeCun이 제안한 H-JEPA (Hierarchical JEPA) 가 정확히 이 구조입니다:

[Level 3: 장기 계획]     "서울에서 부산까지 간다"     ← IT 영역
       ↕ 예측/오류
[Level 2: 중기 행동]     "고속도로 진입한다"          ← V4 영역  
       ↕ 예측/오류
[Level 1: 즉각 반응]     "핸들을 3도 꺾는다"         ← V1 영역
  • 위 레벨은 느리게, 추상적으로 변함 (목적지는 잘 안 바뀜)
  • 아래 레벨은 빠르게, 구체적으로 변함 (핸들은 계속 미세 조정)
  • 각 레벨이 아래 레벨에게 "이 정도 범위에서 움직여" 라는 예측을 보냄

이건 뇌의 V1→IT 계층과 놀라울 정도로 같은 원리입니다.


4. 에너지 최소화 ↔ Free Energy Principle (Friston, 2010)

뇌과학: 자유 에너지 원리

Karl Friston이 제안한 이 이론은 뇌과학의 통일 이론이라 불립니다. 핵심 아이디어:

뇌의 모든 활동(지각, 행동, 학습)은 단 하나의 목표를 가진다: "놀라움(surprise)을 최소화하라"

"놀라움"이란? 수학적으로는 예측과 실제의 차이입니다. 뇌는 세상에 대한 내부 모델을 갖고 있고, 이 모델의 예측이 틀릴 때 놀라움(= 자유 에너지)이 올라갑니다.

뇌가 이 놀라움을 줄이는 방법은 두 가지입니다:

방법 1: 지각 (Perception) — 내 모델을 바꾼다

  • "편의점이 없어지고 카페가 생겼구나" → 내부 모델 업데이트
  • 예측을 수정해서 다음에는 놀라지 않게 됨

방법 2: 행동 (Action) — 세상을 바꾼다

  • 방이 너무 추울 때, "춥다"는 예측 오류를 줄이기 위해 히터를 켠다
  • 내 모델을 바꾸는 게 아니라, 세상을 내 예측에 맞게 바꿈

이 두 가지를 합치면: 뇌는 항상 "예측 가능한 상태"를 유지하려 한다. 이것이 자유 에너지 최소화입니다.

일상 비유로 정리하면:

  • 매일 같은 길로 출근 → 놀라움 최소 (에너지 절약)
  • 갑자기 공사로 길이 막힘 → 놀라움 증가 (에너지 상승)
  • 새로운 우회 경로를 학습 → 놀라움 다시 최소화 (지각)
  • 또는 공사가 없는 시간에 출발 → 놀라움 회피 (행동)

JEPA와의 연결

JEPA에서 학습이 일어나는 방식:

에너지 = ||예측한 표현 - 실제 표현||²

이 에너지(오차)를 최소화하는 방향으로 가중치를 업데이트합니다. Friston의 자유 에너지 최소화와 수학적으로 같은 구조입니다!

그리고 LeCun의 논문 제목을 다시 보세요: "A Path Towards Autonomous Machine Intelligence" — 여기서 "autonomous"는 Friston이 말하는 능동적 추론(Active Inference) 과 연결됩니다. 에이전트가 세상을 관찰만 하는 게 아니라, 행동해서 놀라움을 줄이는 것까지 포함한 거죠.


전체 그림: 왜 이 4가지가 하나로 연결되는가

            뇌의 원리                    JEPA의 구현
            --------                    -----------
   Predictive Coding          →    표현 공간 예측 (Predictor)
   (예측하고 오류만 전달)              (인코딩된 공간에서 예측)
            ↓                              ↓
   Selective Attention         →    마스킹 + 표현 학습
   (중요한 것만 처리)                 (디테일 버리고 의미만 보존)
            ↓                              ↓
   Cortical Hierarchy          →    H-JEPA (계층적 구조)
   (V1→V2→V4→IT)                   (빠른 레벨 → 느린 레벨)
            ↓                              ↓
   Free Energy Principle       →    에너지 기반 학습
   (놀라움 최소화)                    (예측 오류 최소화)

LeCun이 JEPA를 설계할 때, 이 네 가지 뇌과학 원리를 의도적으로 참조한 겁니다.

재미있는 점은, 이 네 이론이 뇌과학에서도 서로 연결되어 있다는 겁니다. Friston 자신이 2009년 논문에서 Predictive Coding을 Free Energy Principle의 특수한 경우로 설명했습니다. 즉 뇌과학에서도 이것들은 하나의 통합 이론으로 수렴하고 있고, JEPA는 그 통합을 AI로 구현하려는 시도입니다.


다음 글에서는 이 뇌과학 이론 중 가장 기초가 되는 Predictive Coding (Rao & Ballard, 1999) 논문을 본격적으로 다룹니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!