[ 트렌드] 🤖 [AI뉴스] LLM의 동질성은 LLM 탓이 아닐 수 있다 (3/4)
1편에서 LLM들이 다 비슷한 말을 한다는 걸 확인했고, 2편에서는 그게 창의성의 문제인지 따져봤다.
이번엔 조금 더 불편한 방향으로 가본다.
논문이 슬쩍 피해간 질문
Artificial Hivemind 논문은 LLM의 동질성을 문제로 규정한다. 그런데 논문 안에 암묵적인 전제가 하나 숨어 있다.
"인간은 다양하게 생각한다."
그 전제가 실제로 맞는지, 논문은 검증하지 않는다.
자, 이런 질문을 던져보자.
"시간은 강이다"가 LLM에서 압도적으로 많이 나온다면, 그게 LLM이 이상한 게 아니라 인간들이 원래 시간을 그렇게 표현해온 빈도가 그만큼 높다는 뜻 아닐까?
LLM은 인간이 만든 텍스트를 학습한다. 만약 인류가 수천 년 동안 써온 글에서 "시간은 강이다"라는 표현이 압도적으로 많았다면, LLM이 그걸 뽑는 건 왜곡이 아니라 정직한 반영이다.
인간의 사고도 생각보다 동질적이다
LLM이 없던 시절을 생각해보자.
전 세계 베스트셀러 소설들의 서사 구조를 분석하면 몇 가지 패턴으로 수렴한다는 연구가 많다. 영웅의 여정, 신데렐라 구조, 비극적 몰락. 크리스토퍼 보글러의 영웅 여정 이론이 할리우드 시나리오 작법의 표준이 된 이유가 있다.
광고 카피는 어떤가. 수십 년이 지나도 비슷한 감정 버튼을 누른다. 희망, 두려움, 소속감, 욕망. 뉴스 헤드라인은 같은 공식을 반복한다. 유행어는 몇 달 만에 전국으로 퍼진다.
도킨스가 밈(meme)이라고 부른 게 바로 이거다. 문화적 표현도 유전자처럼, 생존에 유리한(더 많이 퍼지는) 패턴이 살아남고 나머지는 도태된다. 인간의 집단 표현은 원래부터 수렴하는 구조를 갖고 있다.
그러면 LLM이 한 일은 뭔가
LLM은 그 수렴을 만들어낸 게 아니다.
이미 수렴되어 있던 인간 표현의 패턴을 학습해서, 압축한 뒤 초고속으로 대량 재생산하는 기계가 된 것이다.
비유하자면 LLM은 인류의 표현 문화를 담은 거대한 거울이다. 우리가 거울을 보고 "내가 왜 이렇게 생겼냐"고 거울을 탓하면 이상한 것처럼, LLM의 동질성을 LLM 탓으로만 돌리는 것도 뭔가 어긋난다.
그렇다면 진짜 문제는 뭔가? 동질성 자체가 아니라 그 다음에 일어나는 일이다. 4편에서 이어진다.
LLM 동질성 탐구 시리즈 3/4