[ 트렌드] [World Model 시리즈 #17] Google Genie의 한계 — 왜 아직 진짜 세계가 아닌가?

관

관리자 Lv.1

03-01 21:51 · 조회 40 · 추천 0

Genie는 혁신적이다, 하지만...

Google Genie는 텍스트 하나로 인터랙티브한 3D 세계를 만들어냅니다. 놀라운 기술이지만, 아직 심각한 한계들이 있습니다. 이 한계들을 이해하면 "진짜 World Model"이 무엇인지 더 선명해집니다.

한계 1: 물리 법칙을 "이해"하지 못한다

Genie는 물리를 학습한 패턴으로 흉내낼 뿐, 진짜 이해하지 못합니다.

공을 던지면 포물선으로 날아가는 건 잘 함 → 영상에서 많이 봤으니까
하지만 처음 보는 상황에선 실패 → 무중력에서 물을 쏟으면? 엉뚱한 결과

비유: 네비게이션이 아는 길은 잘 안내하지만, 지도에 없는 길에선 완전히 헤매는 것과 같습니다. Genie는 "물리 법칙이라는 지도"를 갖고 있지 않고, 그저 "많이 다녀본 길의 기억"만 있습니다.

한계 2: 시간이 지나면 세계가 "무너진다"

Genie 3 기준, 시각적 일관성은 약 1분입니다.

매 프레임마다 미세한 오차가 생기고, 이것이 눈덩이처럼 쌓입니다:

1단계:    99.9% 정확 → 문제없음
100단계:  90.5% 정확 → 슬슬 이상해짐
1000단계: 36.8% 정확 → 원래 세계와 딴판

비유: 핸들을 0.1도씩 계속 한쪽으로 틀면, 처음엔 모르지만 결국 도로를 벗어납니다.

한계 3: "보이는 것"만 존재한다 (가장 근본적 문제)

이것이 Genie의 가장 심각한 한계입니다.

인간의 세계 인식:
  부엌을 나가도 → 냉장고가 거기 있다는 걸 "안다"
  뒤를 돌아봐도 → 아까 본 풍경이 그대로

Genie의 세계:
  카메라가 돌아가면 → 뒤쪽 세계는 사실상 "없다"
  다시 돌아보면 → 새로 생성함 (이전과 다를 수 있음)

이건 Object Permanence(대상 영속성)의 부재입니다. 생후 8개월 아기도 "엄마가 이불 뒤에 숨어도 사라진 게 아니다"라는 걸 압니다. Genie는 이것도 못 합니다.

비유: Genie의 세계는 마치 꿈과 같습니다. 꿈속에서 뒤를 돌아보면 아까 있던 문이 사라져 있거나, 방 구조가 바뀌어 있죠. 과거를 완전히 기억하지 못하기 때문입니다.

한계 4: 인과관계 추론 불가

Genie는 "무엇이 일어나는지"는 흉내내지만, "왜 일어나는지"는 모릅니다.

유리컵을 떨어뜨리면 깨진다 → 패턴으로 학습 (OK)
"왜 깨지는가?" → 모름
"이 컵이 고무라면?" → 여전히 깨뜨릴 수 있음 (재질 개념 없음)

비유: 앵무새가 "안녕하세요"를 말할 수 있지만 인사의 의미를 모르는 것과 같습니다. Genie는 물리 현상을 "앵무새처럼" 흉내내는 것이지, 이해하는 것이 아닙니다.

한계 5: 행동 공간이 매우 제한적

Genie가 자동으로 발견한 액션은 기본적인 것들뿐입니다:

✅ 걷기, 점프, 줍기 같은 단순 동작
❌ "문을 열면서 동시에 뒤를 본다" 같은 복합 행동
❌ "조심스럽게 vs 세게" 같은 힘 조절
❌ 도구를 사용한 복잡한 조작

실제 세계에서 인간이 하는 행동의 다양성에 비하면 극히 일부만 가능합니다.

한계 6: 학습 데이터 편향

Genie의 훈련 데이터: 주로 게임 영상 + YouTube 비디오

→ 게임 같은 세계 = 잘 만듦 ✅
→ 실제 공장 내부 = 품질 급락 ❌
→ 수중 환경 = 어색함 ❌
→ 의료 시설 = 부정확 ❌

비유: 한국 음식만 먹어본 사람이 페루 요리를 상상하기 어려운 것과 같습니다. 본 적 없는 세계는 만들 수 없습니다.

한계 7: 컴퓨팅 비용과 접근성

Genie 3가 720p, 24fps를 달성했지만:

대규모 GPU 클러스터 필요 → 개인 PC로는 불가능
여러 사용자가 같은 세계를 공유하는 멀티플레이어는 아직 미지수
로봇 제어 같은 실시간 응용에는 지연 시간이 아직 부족

종합: Genie가 못 하는 것 vs 인간의 뇌가 하는 것

능력	인간의 뇌	Google Genie
물리 이해	직관적으로 안다	패턴 흉내만
대상 영속성	안 봐도 존재를 안다	안 보면 없다
인과 추론	"왜"를 이해한다	"왜"를 모른다
장기 일관성	수십 년 기억 유지	~1분이 한계
새로운 상황	유연하게 대응	학습 범위 밖이면 붕괴
에너지 효율	20W	수천 W의 GPU
행동 다양성	무한	기본 동작만

이 한계들이 말해주는 것

Genie의 한계는 사실 현재 AI 전체의 한계를 보여줍니다:

생성 ≠ 이해: 그럴듯한 세계를 "그릴" 수는 있지만, 그 세계를 "이해"하지는 못한다
패턴 매칭 ≠ 추론: 본 것을 재현할 수는 있지만, 본 적 없는 것을 추론하지는 못한다
단기 일관성 ≠ 영속적 세계: 순간은 완벽하지만, 시간이 지나면 무너진다

이것이 바로 LeCun이 JEPA에서 "생성(Generation)보다 이해(Understanding)가 먼저"라고 주장한 이유입니다.

Genie는 "세계를 만드는 능력"에서는 놀라운 진전이지만, 진짜 World Model은 만드는 것을 넘어 — 이해하고, 추론하고, 기억하는 것이 함께 와야 합니다.

다음 시리즈에서는 RT-2(Robotic Transformer 2)를 다룹니다 — AI가 세계를 이해하는 것을 넘어, 실제 물리 세계에서 행동하는 단계로.

◀ [World Model 시리즈 #16] AI의 기억 한계 — 왜 무한한 시뮬레이션은 불가능한가? [World Model 시리즈 #18] RT-2 — AI가 세계를 이해하고, 드디어 '행동'한다 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기