[ 트렌드] 🤖 [AI뉴스] LLM들은 왜 다 똑같은 말을 할까? — Artificial Hivemind 논문 이야기 (1/4)

관리자 Lv.1
03-14 21:57 · 조회 18 · 추천 0

요즘 AI 관련 뉴스를 보다 보면 이런 말을 자주 듣는다.

"GPT 써봤는데 Claude랑 비슷하더라." "어차피 AI들 다 거기서 거기 아니야?"

그냥 느낌이 아니었다. 실제로 그랬다.

2025년 AI 분야 최고 학술대회 중 하나인 NeurIPS에 워싱턴대, 카네기멜론, 스탠퍼드 공동 연구팀이 흥미로운 논문을 발표했다. 제목은 Artificial Hivemind, 직역하면 인공 벌집 정신이다.


실험이 뭔데?

연구팀이 GPT-4o, Claude, Gemini, Qwen, DeepSeek 등 25개 모델에게 이런 질문을 던졌다.

"시간에 대한 은유를 하나 써봐."

각 모델당 50번씩. 총 1,250개의 답변이 나왔다.

자, 생각해봐. 25개나 되는 서로 다른 회사, 서로 다른 구조의 AI들이 각자 50번씩 답했으니까 엄청나게 다양한 표현이 나왔을 것 같지 않아?

결과는 충격적이었다. 1,250개의 답변이 딱 두 덩어리로 수렴했다.

  • "시간은 강이다" — 압도적 다수
  • "시간은 직조자다" — 소수

GPT-4o: "Time is a river, endlessly flowing, carrying moments like leaves that drift away." Qwen: "Time is a river, flowing silently and ceaselessly, carrying leaves from birth to oblivion." phi-4: "Time is an invisible river, endlessly flowing, carrying moments past like leaves caught in its current."

회사도 다르고, 학습 방식도 다르고, 크기도 다른데 거의 같은 말을 하고 있었던 거다.


이게 왜 문제냐?

연구팀은 이 현상을 두 가지로 분류했다.

첫째, 모델 내 반복 (Intra-model repetition) 같은 모델한테 50번 물어봐도 비슷한 답이 나온다. 무작위성을 최대한 높이는 파라미터(temperature)를 올려봐도 마찬가지다. 79%의 경우에서 같은 모델 응답들 간 유사도가 0.8을 넘었다. 0에서 1 사이 척도에서 0.8이면 사실상 같은 말이다.

둘째, 모델 간 동질성 (Inter-model homogeneity) 이게 더 심각한 문제다. DeepSeek-V3랑 GPT-4o가 아이폰 케이스를 설명하는 문장을 거의 똑같이 썼다.

  • DeepSeek: "Elevate your iPhone with our sleek, slim-fitted case..."
  • GPT-4o: "Elevate your iPhone with our slim-fitted case collection..."

어떤 경우엔 완전히 동일한 문장이 나오기도 했다. "성공, 부, 자기계발 소셜미디어 페이지 모토를 만들어봐"라는 질문에 Qwen의 두 모델이 글자 하나 다르지 않은 똑같은 답을 내놓았다.


연구팀이 이 현상에 붙인 이름이 바로 Artificial Hivemind, 인공 벌집 정신이다. 벌집처럼 개체는 다 다른데 결국 같은 방향으로 움직인다는 뜻이다.

그럼 이게 LLM의 결함일까? 다음 편에서 그 질문을 파고들어본다.

LLM 동질성 탐구 시리즈 1/4

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!