[ 트렌드] [World Model 개념 정리 #4] 세계 인식 메커니즘 — 다중감각 통합, 대상 영속성, 물리 직관
세계 인식 메커니즘 — 인간이 세계를 "아는" 세 가지 근본 능력
개념정리 시리즈 #4 — 다중감각 통합, 대상 영속성, 물리 직관. 이 세 능력이 없으면 World Model은 불가능합니다.
왜 "인식"이 중요한가?
AI가 세계를 이해하려면, 먼저 세계를 인식할 수 있어야 합니다. 인간은 태어난 후 2년 안에 세 가지 근본적인 인식 능력을 발달시킵니다:
| 능력 | 의미 | 발달 시기 | AI 현황 |
|---|---|---|---|
| 다중감각 통합 | 5개 채널을 하나의 세계로 통합 | 출생~6개월 | 부분적 |
| 대상 영속성 | 보이지 않아도 존재한다 | 4~18개월 | 매우 약함 |
| 물리 직관 | 물리 법칙을 "느끼는" 능력 | 2.5~12개월 | 매우 약함 |
1. 다중감각 통합 (Multisensory Integration)
시각, 청각, 촉각, 후각, 미각 — 완전히 다른 5개 채널로 받아들이지만, 우리는 하나의 통합된 세계를 경험합니다.
3가지 핵심 원리
① 시간 원리 — 시각과 청각이 ~150ms 이내에 도착하면 "같은 사건"으로 통합. 영화 더빙이 통하는 이유.
② 공간 원리 — 같은 방향에서 오는 빛과 소리는 하나의 사건으로 묶임. 복화술이 작동하는 원리.
③ 역 효과성 — 단일 감각이 약할 때 다른 감각의 보조 효과가 극대화. 시끄러운 곳에서 입술을 보면 알아듣는 이유.
McGurk 효과 — 결정적 증거
"ba" 소리를 들으면서 "ga"를 말하는 입술을 보면, 뇌는 "da"를 듣습니다. 존재하지 않는 소리를 만들어내는 것 — 뇌가 감각을 능동적으로 통합한다는 강력한 증거.
뇌의 통합 영역
| 영역 | 통합 대상 | 손상 시 |
|---|---|---|
| 상측두구 (STS) | 시각+청각 (언어) | McGurk 효과 소실 |
| 두정엽 (PPC) | 시각+촉각+고유감각 | 신체 도식 장애 |
| 전전두엽 (PFC) | 모든 감각 + 기억 | 맥락적 통합 실패 |
| 상구 (SC) | 시각+청각 (방향) | 소리 방향 정위 장애 |
2. 대상 영속성 (Object Permanence)
컵을 수건으로 덮으면 컵이 여전히 존재한다 — 이것은 배워야 하는 능력입니다.
Piaget의 발달 5단계
| 시기 | 단계 | 특징 |
|---|---|---|
| 0~4개월 | 1단계 | 영속성 없음. 사라지면 없는 것. |
| 4~8개월 | 2단계 | 부분적. 반쯤 가려진 것만 찾음. |
| 8~12개월 | 3단계 | A-not-B 오류 — 장소 A에서 찾던 것을 B로 옮겨도 A에서 찾음 |
| 12~18개월 | 4단계 | 눈에 보이는 이동은 추적 가능 |
| 18~24개월 | 5단계 | 완전한 영속성 — 보이지 않는 이동도 추론 |
A-not-B 오류의 의미
이 "실수"는 뇌가 World Model을 구축하는 과정의 증거입니다:
- 기억 시스템 (A에서의 성공 경험) vs 지각 시스템 (B로 이동하는 걸 봄)이 갈등
- 전전두엽이 미성숙하여 기억을 억제하지 못함
- AI에서도 동일: 학습된 패턴이 새 관찰을 이기는 현상 = 편향(bias)
AI에서의 현황
| AI | 대상 영속성 | 문제 |
|---|---|---|
| Sora/Genie | ❌ 매우 약함 | 물체가 가려지면 사라지거나 변형 |
| JEPA | ⚠️ 시도 중 | 표현 공간에서 연속성 유지 시도 |
| SlotAttention | ⚠️ 부분 성공 | 장면을 "슬롯"으로 분해하여 물체 추적 |
3. 물리 직관 (Intuitive Physics)
공을 던지면 어디에 떨어질지 — 뉴턴 방정식 없이도 직관적으로 아는 능력.
5가지 핵심 물리 직관
| 직관 | 내용 | 위반 감지 시기 |
|---|---|---|
| 연속성 | 물체는 연속적 경로로 이동 | 생후 2.5개월 |
| 고체성 | 두 물체는 같은 공간을 차지 불가 | 생후 3.5개월 |
| 지지 | 지지 없으면 떨어짐 | 생후 5개월 |
| 중력 | 아래로 떨어짐 | 생후 6개월 |
| 관성 | 움직이는 것은 계속 움직임 | 생후 7개월 |
AI vs 인간 비교
| 능력 | 인간 | 현재 AI | 격차 |
|---|---|---|---|
| 블록 탑 안정성 | ~95% | ~70% | 중간 |
| 충돌 예측 | 직관적, ~100ms | 학습 필요, 느림 | 큼 |
| 유체 역학 | 대략적 직관 | 매우 어려움 | 큼 |
| 새 상황 일반화 | 즉시 적용 | 재학습 필요 | 매우 큼 |
"5개월 된 아기도 이해하는 물리를, 가장 강력한 AI는 아직 제대로 배우지 못했다."
발달 순서 = AI 학습 순서의 힌트
인간의 인지 발달은 감각적 → 지각적 → 개념적 순서:
- 먼저 감각 데이터를 구분 (시각, 청각 분리)
- 그 다음 감각들을 통합 (다중감각)
- 그 다음 물리 법칙을 체득 (물리 직관)
- 마지막으로 보이지 않는 것을 추론 (대상 영속성, 인과)
AI도 이 순서를 따르는 커리큘럼 학습(Curriculum Learning)이 더 효율적일 수 있습니다.
5대 AI 미해결 과제
- 다중 모달 접지 — 진정한 감각 통합 (패턴 매칭이 아닌 인과적 통합)
- 대상 중심 표상 — 픽셀이 아닌 물체 수준의 처리
- 인과 추론 — 상관관계 ≠ 인과관계 이해
- 직관적 물리 엔진 — 시뮬레이션 없이 빠르게 물리를 "느끼기"
- 발달적 학습 — 인간처럼 단계적으로 쌓아가는 프레임워크
결론: 통합이 답이다
세 능력은 서로 연결되어 있습니다:
- 다중감각 통합 → 풍부한 물체 표상 → 대상 영속성의 기반
- 대상 영속성 → 시간에 걸친 추적 → 물리 법칙 학습의 전제
- 물리 직관 → 예측 가능한 세계 → 계획과 행동의 기반
진정한 World Model = 이 세 가지가 하나로 통합된 시스템
이것이 LeCun의 JEPA, Friston의 Active Inference, DeepMind의 Dreamer가 모두 향하고 있는 방향입니다.
🧠 인터랙티브 HTML 버전은 별도 파일로 제공됩니다 (감각 통합 체험 데모 포함). 🎉 1-2 개념정리 시리즈 4편 완료! 다음: 1-3 로드맵 시각화