[ 트렌드] [World Model 시리즈 #8] LeCun의 JEPA — 애초에 이미지를 복원할 필요가 있었나?
LeCun의 JEPA — 애초에 이미지를 복원할 필요가 있었나?
World Model 시리즈 여덟 번째 글입니다. World Models와 Dreamer가 "같은 틀에서 부품을 개선"했다면, LeCun의 JEPA는 틀 자체를 바꿉니다.
이전까지의 흐름
World Models (2018): 이미지 -> VAE로 압축 -> 복원하며 학습
Dreamer (2020~): 같은 방식이지만 더 정교하게 개선
둘 다 V(VAE)가 이미지를 압축하고 다시 복원하는 과정에서 학습합니다. LeCun은 여기서 근본적인 질문을 던집니다.
"왜 이미지를 다시 복원해야 하지? 그건 낭비 아닌가?"
복원의 문제점
자동차 운전 영상의 다음 프레임을 예측한다고 생각해보세요.
[현재 프레임] [다음 프레임 예측]
도로 위 자동차 -> 자동차가 앞으로 (중요!)
나무잎이 흔들림 -> 나무잎이... 어떻게? (몰라도 됨)
구름 모양 -> 구름이... 어떻게? (몰라도 됨)
아스팔트 질감 -> 질감이... 똑같겠지? (몰라도 됨)
운전에 중요한 정보는 "자동차가 앞으로 갔다" 뿐입니다. 그런데 VAE 같은 생성 모델은 나무잎 한 장 한 장까지 전부 복원해야 합니다.
생성 모델의 에너지 배분:
자동차 위치 예측: 10% <-- 진짜 중요한 것
나무잎 흔들림: 30% <-- 쓸모없는 디테일
구름 변화: 20% <-- 쓸모없는 디테일
아스팔트 질감: 40% <-- 쓸모없는 디테일
에너지의 90%를 쓸모없는 디테일에 낭비하고 있는 겁니다.
JEPA의 해결책: "핵심만 예측하자"
JEPA는 이미지를 복원하지 않습니다. 대신 추상화된 표현(representation) 사이에서 예측합니다.
[생성 모델 -- World Models, Dreamer]
현재 이미지 -> 인코딩 -> z -> 디코딩 -> 다음 이미지 (모든 픽셀)
나무잎, 구름까지 전부 복원해야 함
[JEPA -- LeCun의 제안]
현재 이미지 -> 인코더 -> 표현 sx
다음 이미지 -> 인코더 -> 표현 sy
sx로부터 sy를 예측 (이미지가 아닌 "의미"를 예측)
비유:
생성 모델:
"다음 장면을 그림으로 그려봐" (모든 디테일 포함)
-> 나무잎까지 다 그려야 하니까 힘듦
JEPA:
"다음 장면을 한 문장으로 요약해봐"
-> "자동차가 앞으로 갔다" 끝. 나무잎은 신경 안 씀
JEPA의 구조
현재 (x) 미래 (y)
| |
v v
[x 인코더] [y 인코더]
| |
v v
sx --> [예측기] --> sy(예측) <-비교-> sy(실제)
핵심 포인트:
- 두 개의 인코더가 각각 현재와 미래를 "의미"로 변환
- 예측기는 sx로부터 sy를 예측
- y 자체를 복원하는 게 아니라, y의 표현(sy)을 예측
LeCun이 제안한 전체 시스템: 6개 모듈
LeCun은 JEPA를 넘어서 완전한 자율 지능 시스템의 청사진을 그렸습니다.
| 모듈 | 역할 | 비유 |
|---|---|---|
| 인식 | 세상을 관찰 | 눈, 귀 |
| World Model | 미래를 예측 (JEPA) | 상상력 |
| 비용/목표 | "이게 좋은 상황인가?" 판단 | 가치관 |
| 행동 | 실제 행동 선택 | 손, 발 |
| 메모리 | 과거 경험 저장 | 기억 |
| 설정기 | 주의 집중 조절 | 집중력 |
World Models(V-M-C 3개)보다 훨씬 풍부한 구조입니다. 특히 메모리와 설정기가 추가된 것이 중요합니다. "h 하나로 기억이 부족하다"는 문제를 별도 메모리 모듈이 해결합니다.
계층적 JEPA (H-JEPA)
JEPA를 여러 층으로 쌓자는 제안입니다.
높은 층: "서울에서 부산까지 간다" (장기 계획, 추상적)
|
중간 층: "고속도로에서 IC를 빠져나간다" (중기 계획)
|
낮은 층: "핸들을 3도 왼쪽으로" (즉각 행동, 구체적)
낮은 층은 짧은 미래를, 높은 층은 먼 미래를 예측합니다. 인간이 운전할 때 "바로 앞 커브"와 "목적지까지의 경로"를 동시에 생각하는 것과 같습니다.
이건 Dreamer의 한계(한 단계씩만 예측)를 근본적으로 해결하는 방향입니다.
World Models vs Dreamer vs JEPA 비교
| 항목 | World Models | Dreamer V3 | JEPA |
|---|---|---|---|
| 예측 대상 | 픽셀 복원 | 픽셀 복원 | 표현(의미) 예측 |
| 낭비 | 높음 | 높음 | 낮음 |
| 상태 구조 | h 하나 | h + z 분리 | 계층적 표현 |
| 미래 예측 | 한 단계씩 | 한 단계씩 | 다중 시간 스케일 |
| 메모리 | 없음 | 없음 | 별도 모듈 |
| 학습 신호 | 재구성 오차 | 재구성 + 보상 | 표현 간 일치도 |
뇌과학 연결
JEPA는 뇌과학 이론과 가장 가깝습니다.
JEPA의 원리 <-> 뇌과학 이론
표현 공간에서 예측 <-> Predictive Coding (Rao & Ballard)
불필요한 디테일 버림 <-> 시각 피질의 선택적 주의
계층적 추상화 <-> 피질의 계층 구조 (V1->V2->V4->IT)
에너지 최소화 <-> Free Energy Principle (Friston)
LeCun은 논문에서 Predictive Coding과 Free Energy Principle을 명시적으로 참조합니다.
현재 진행 상황: V-JEPA (2024)
Meta AI는 이 이론을 실제로 구현한 V-JEPA를 2024년에 발표했습니다.
- 비디오에서 마스킹된 부분의 "표현"을 예측 (픽셀 아님)
- 라벨 없이 비디오만으로 학습 (자기지도 학습)
- 행동 인식, 물체 상호작용 이해 등에서 뛰어난 성능
정리: 세 세대의 진화
1세대 - World Models (2018)
"세상의 축소 모형을 만들자" (픽셀 복원 기반)
|
2세대 - Dreamer (2020~2023)
"모형을 더 정교하게" (RSSM, Actor-Critic)
|
3세대 - JEPA (2022~)
"복원 자체가 낭비, 의미만 예측하자" (패러다임 전환)
참고 링크
다음 글에서는 JEPA의 이론적 기반인 Predictive Coding (Rao & Ballard, 1999)을 다룹니다. 뇌가 실제로 "예측 기계"로 작동한다는 이론입니다.