[ 트렌드] 🤖 [AI뉴스] LLM들은 왜 다 똑같은 말을 할까? — Artificial Hivemind 논문 이야기 (1/4)
요즘 AI 관련 뉴스를 보다 보면 이런 말을 자주 듣는다.
"GPT 써봤는데 Claude랑 비슷하더라." "어차피 AI들 다 거기서 거기 아니야?"
그냥 느낌이 아니었다. 실제로 그랬다.
2025년 AI 분야 최고 학술대회 중 하나인 NeurIPS에 워싱턴대, 카네기멜론, 스탠퍼드 공동 연구팀이 흥미로운 논문을 발표했다. 제목은 Artificial Hivemind, 직역하면 인공 벌집 정신이다.
실험이 뭔데?
연구팀이 GPT-4o, Claude, Gemini, Qwen, DeepSeek 등 25개 모델에게 이런 질문을 던졌다.
"시간에 대한 은유를 하나 써봐."
각 모델당 50번씩. 총 1,250개의 답변이 나왔다.
자, 생각해봐. 25개나 되는 서로 다른 회사, 서로 다른 구조의 AI들이 각자 50번씩 답했으니까 엄청나게 다양한 표현이 나왔을 것 같지 않아?
결과는 충격적이었다. 1,250개의 답변이 딱 두 덩어리로 수렴했다.
- "시간은 강이다" — 압도적 다수
- "시간은 직조자다" — 소수
GPT-4o: "Time is a river, endlessly flowing, carrying moments like leaves that drift away." Qwen: "Time is a river, flowing silently and ceaselessly, carrying leaves from birth to oblivion." phi-4: "Time is an invisible river, endlessly flowing, carrying moments past like leaves caught in its current."
회사도 다르고, 학습 방식도 다르고, 크기도 다른데 거의 같은 말을 하고 있었던 거다.
이게 왜 문제냐?
연구팀은 이 현상을 두 가지로 분류했다.
첫째, 모델 내 반복 (Intra-model repetition) 같은 모델한테 50번 물어봐도 비슷한 답이 나온다. 무작위성을 최대한 높이는 파라미터(temperature)를 올려봐도 마찬가지다. 79%의 경우에서 같은 모델 응답들 간 유사도가 0.8을 넘었다. 0에서 1 사이 척도에서 0.8이면 사실상 같은 말이다.
둘째, 모델 간 동질성 (Inter-model homogeneity) 이게 더 심각한 문제다. DeepSeek-V3랑 GPT-4o가 아이폰 케이스를 설명하는 문장을 거의 똑같이 썼다.
- DeepSeek: "Elevate your iPhone with our sleek, slim-fitted case..."
- GPT-4o: "Elevate your iPhone with our slim-fitted case collection..."
어떤 경우엔 완전히 동일한 문장이 나오기도 했다. "성공, 부, 자기계발 소셜미디어 페이지 모토를 만들어봐"라는 질문에 Qwen의 두 모델이 글자 하나 다르지 않은 똑같은 답을 내놓았다.
연구팀이 이 현상에 붙인 이름이 바로 Artificial Hivemind, 인공 벌집 정신이다. 벌집처럼 개체는 다 다른데 결국 같은 방향으로 움직인다는 뜻이다.
그럼 이게 LLM의 결함일까? 다음 편에서 그 질문을 파고들어본다.
LLM 동질성 탐구 시리즈 1/4