[ 트렌드] [World Model 시리즈 #14] V-JEPA — LeCun의 이론이 현실이 되다

관리자 Lv.1
03-01 15:20 · 조회 22 · 추천 0

V-JEPA — LeCun의 이론이 현실이 되다

논문: V-JEPA (Meta AI, 2024) → V-JEPA 2 (Meta AI, 2025)

시리즈 #8에서 배운 LeCun의 JEPA 이론이 실제로 작동하는 시스템으로 만들어졌습니다.


한 줄 요약

비디오의 일부를 가리고, "표현 공간"에서 가려진 부분을 예측하게 학습시킨다. 픽셀은 건드리지 않는다.


1. 이론에서 구현으로

시리즈를 되짚어 보면:

JEPA 이론 (LeCun, 2022)
  "픽셀이 아닌 표현 공간에서 예측해야 한다"
  "불필요한 디테일은 버려야 한다"
  → 논문 속 아이디어

V-JEPA (Meta AI, 2024)
  "좋아, 비디오로 실제로 해보자"
  → 12억 개 파라미터, 100만 시간 비디오로 학습
  → 실제로 작동함!

2. V-JEPA의 작동 원리

Step 1: 비디오를 잘게 자른다

비디오 = 연속된 프레임들

┌───┬───┬───┬───┐
│ 1 │ 2 │ 3 │ 4 │ ... (프레임들)
└───┴───┴───┴───┘
        ↓
    3D 패치로 분할 ("튜브릿 Tubelet")
    = 2프레임 × 16픽셀 × 16픽셀 단위
    
┌──┬──┬──┬──┐
│🟦│🟦│🟦│🟦│  시간 1-2
├──┼──┼──┼──┤
│🟦│🟦│🟦│🟦│  시간 3-4
└──┴──┴──┴──┘
  각 칸 = 하나의 "튜브릿" (시공간 패치)

운전 비유: 블랙박스 영상을 작은 시공간 조각들로 나누는 것. 각 조각은 "왼쪽 위에서 0.1초 동안 일어난 것"처럼 됩니다.

Step 2: 일부를 가린다 (마스킹)

┌──┬──┬──┬──┐
│🟦│██│🟦│██│  ██ = 가려진 부분 (마스크)
├──┼──┼──┼──┤
│██│🟦│██│🟦│  🟦 = 보이는 부분
└──┴──┴──┴──┘

공간적으로도, 시간적으로도 가립니다. 즉 "이 영역의 미래 2초"를 가리기도 하고, "현재 프레임의 오른쪽 절반"을 가리기도 합니다.

운전 비유: 블랙박스 영상에서 앞유리 오른쪽 부분을 가려놓고 "거기에 뭐가 있었을까?"를 맞추게 하는 것.

Step 3: 인코더가 보이는 부분을 표현으로 변환

보이는 부분 🟦🟦🟦🟦
     │
     ▼
┌──────────────┐
│   인코더      │  Vision Transformer (ViT)
│  (Encoder)    │  
└──────┬───────┘
       ▼
  [표현 벡터들]  ← 픽셀이 아닌 "의미"를 담은 벡터

Step 4: 예측기가 가려진 부분의 "표현"을 예측

[보이는 부분의 표현] + [어디가 가려졌는지 정보]
     │
     ▼
┌──────────────┐
│   예측기      │
│ (Predictor)   │
└──────┬───────┘
       ▼
  [가려진 부분의 표현 예측]  ← 픽셀이 아니라 "표현"을 예측!

Step 5: 예측과 실제를 비교 (표현 공간에서)

[예측된 표현] vs [실제 표현 (타겟 인코더가 생성)]

  오차 = ||예측 표현 - 실제 표현||²
  
  → 이 오차를 줄이는 방향으로 학습!

핵심: 픽셀을 예측하지 않는다! 가려진 부분이 "빛의 반사가 어떤 각도로..."같은 디테일이 아니라 "자동차가 오른쪽으로 이동하고 있다"같은 의미 수준으로 예측합니다.


3. 왜 픽셀을 예측하지 않는 게 중요한가?

생성 모델 (VideoMAE, Sora 등) vs V-JEPA

[생성 모델 — 픽셀 예측]
가려진 부분을 복원: "이 픽셀은 RGB(142, 87, 203)..."
                    "저 픽셀은 RGB(143, 88, 201)..."

문제 1: 구름의 정확한 모양을 예측해야 함 → 불가능에 가까움
문제 2: 나뭇잎의 미세한 떨림을 예측해야 함 → 에너지 낭비
문제 3: 예측 불가능한 디테일에 집착 → 진짜 중요한 것을 놓침

[V-JEPA — 표현 예측]
가려진 부분의 의미를 예측: "자동차가 오른쪽으로 이동 중"

장점 1: 구름 모양? 상관없음 → 중요한 것만 학습
장점 2: 나뭇잎 떨림? 무시 → 에너지 절약
장점 3: "무엇이 일어나고 있는가"에 집중 → 진짜 이해

시리즈 #12에서 배운 것을 기억하세요. 이세돌이 바둑판의 모든 픽셀을 기억하나요? 아닙니다. "흑이 이 방향으로 세력을 형성하고 있다"는 표현 수준에서 이해합니다. V-JEPA도 같은 원리입니다.

실제 성능 차이:

모델 방식 학습 효율
VideoMAE 픽셀 예측 기준선
V-JEPA 표현 예측 1.5~6배 효율적

같은 성능을 내는 데 V-JEPA가 데이터와 연산을 1.5~6배 적게 씁니다. Predictive Coding에서 배운 "뇌의 효율성"에 한 걸음 다가간 겁니다.


4. 뇌과학 이론과의 연결

시리즈에서 배운 모든 이론이 V-JEPA 안에 들어있습니다:

Predictive Coding (시리즈 #10-11)
→ V-JEPA의 예측기 = 상위 영역이 하위 영역에 보내는 예측
→ 오차 = 예측 오류
→ 학습 = 오류 최소화

선택적 주의 (시리즈 #9)
→ 마스킹 = 일부에만 주의를 기울이는 것
→ 표현 예측 = 디테일 무시, 의미만 추출

피질 계층 (시리즈 #9)
→ ViT의 여러 층 = V1→V2→V4→IT 계층
→ 아래층: 가장자리, 텍스처
→ 위층: 물체, 행동, 사건

Free Energy Principle (시리즈 #13)
→ 학습 목표 = 에너지(오차) 최소화
→ 표현 공간 예측 = 자유 에너지의 변분 근사

5. V-JEPA 2 — 한 걸음 더

2025년에 발표된 V-JEPA 2는 더 발전했습니다:

V-JEPA (2024):  비디오를 "이해"
V-JEPA 2 (2025): 비디오를 이해 + "미래를 예측" + "행동을 계획"

V-JEPA 2의 핵심 발전:

1. 100만 시간의 비디오로 학습

  • 인터넷의 자연 비디오로 자기지도 학습
  • 사람이 라벨을 붙이지 않아도 스스로 세상의 물리를 학습

2. 물리적 직관 이해

  • 물체가 떨어지면 어디로 갈지 예측
  • 물체를 밀면 어떻게 움직일지 이해
  • 인간 수준에 가까운 물리적 추론 능력

3. 로봇 계획에 활용

  • 비디오로 배운 세상 모델을 로봇에 적용
  • 처음 보는 물체도 어떻게 다뤄야 하는지 계획
  • 이것이 바로 World Model의 실제 응용!

6. 전체 구조 한눈에

[입력: 비디오]
     │
     ▼ 3D 패치로 분할 (튜브릿)
     │
     ├──→ [보이는 패치] ──→ [인코더] ──→ [표현]
     │                                    │
     │                                    ▼
     │                              [예측기] ──→ [예측된 표현]
     │                                              │
     └──→ [가린 패치] ──→ [타겟 인코더] ──→ [실제 표현]
                                              │
                                              ▼
                                    오차 = ||예측 - 실제||²
                                              │
                                              ▼
                                         학습 (오차 줄이기)

이것이 V-JEPA입니다. LeCun의 JEPA 이론이 실제 시스템으로 구현된 것.


7. 우리 여정에서의 위치

이론의 뿌리:
  Predictive Coding (1999) → Free Energy (2010)
      ↓
AI 아키텍처 이론:
  World Models (2018) → Dreamer (2020) → JEPA 이론 (2022)
      ↓
실제 구현:
  V-JEPA (2024) → V-JEPA 2 (2025) ← 지금 여기!
      ↓
다음 방향:
  Google Genie (2024) — 비디오 생성형 World Model
  Sora (OpenAI) — 영상 생성의 World Model적 접근

이론에서 시작해서 드디어 실제 작동하는 시스템까지 왔습니다!


다음 글에서는 같은 시기에 등장한 또 다른 접근, Google Genie (2024) 를 다룹니다. V-JEPA가 "이해"에 집중한다면, Genie는 "생성"에 집중합니다. 같은 World Model이지만 다른 철학입니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!