[ 트렌드] AI 안전의 역설: 챗봇이 너무 많이 알게 되면 생기는 일

관

관리자 Lv.1

02-22 07:09 · 조회 48 · 추천 0

OpenAI 안전팀이 2025년 6월, 뭔가 심상치 않은 걸 감지했다.

브리티시컬럼비아에 사는 한 ChatGPT 사용자가 폭력적인 시나리오를 묘사하고 있었다. 아주 구체적으로. 콘텐츠 검토자가 멈칫하고 다시 읽어볼 정도의 내용이었다. 해당 계정은 "폭력 행위 조장" 항목으로 내부 플래그가 걸렸다.

OpenAI는 계정을 차단했다. 그리고 캐나다 왕립기마경찰(RCMP)에 신고할지 논의했다.

결론은 신고하지 않기로. 해당 사용 내역이 "심각한 신체적 위해에 대한 신뢰할 만하고 임박한 계획의 기준에 미치지 못한다"는 판단이었다.

7개월 뒤, 바로 그 사용자—제시 반 루첼라르(Jesse Van Rootselaar)—가 텀블러 리지(Tumbler Ridge)의 한 학교에 들어가 총을 쐈다.

이제 모두가 같은 질문을 던지고 있다: OpenAI가 그때 전화했어야 하는 거 아니었나?

실제로 무슨 일이 있었나

돌이켜보면 타임라인이 참혹하다.

2025년 6월, OpenAI의 자동화 시스템이 반 루첼라르의 계정에 플래그를 걸었다. 사람이 직접 대화 내용을 검토했다. 즉각 차단할 만큼 우려스러운 내용이었지만, OpenAI 내부 프로토콜 기준으로는 법 집행기관에 연락할 수준은 아니라는 판단이 내려졌다.

회사 측 논리는 이랬다. 반 루첼라르의 대화에는 폭력적 환상이 담겨 있었지만, 구체적인 대상이나 시간, 실행 가능한 계획은 포함돼 있지 않았다. OpenAI의 정책 체계에서 이 구분은 중요하다.

"우리 목표는 프라이버시와 안전 사이의 균형을 맞추는 것"이라고 OpenAI 신뢰·안전 책임자 케빈 우드(Kevin Wood)가 글로브앤메일에 밝혔다. "법 집행기관 의뢰를 지나치게 광범위하게 적용해 의도치 않은 피해가 발생하는 것을 피하고 싶다."

쉽게 말하면 이렇다. ChatGPT에서 폭력을 언급하는 사용자를 전부 신고하면, 하루에 수천 건의 신고가 들어간다. 대부분은 소설 쓰는 사람, 게임 줄거리 토론하는 사람, 아니면 실행할 의도 없이 울분을 터뜨리는 사람일 뿐이다.

하지만 이번에는 소설이 아니었다.

텀블러 리지 총격은 2026년 2월에 발생했다. 세부 사항은 아직 드러나는 중이지만, 기본 사실은 분명하다. OpenAI는 수사를 촉발할 수 있는 정보를 갖고 있었다. 공유하지 않기로 선택했다. 그리고 사람이 죽었다.

인텔리전스의 덫

역설은 여기에 있다. AI 기업들은 위험을 감지할 만큼 똑똑한 시스템을 만들었지만, 그 정보를 가지고 행동할 프레임워크는 전혀 없다.

ChatGPT가 하는 일을 생각해 보자. 수십억 건의 대화를 처리한다. 패턴을 분석한다. 우려되는 행동을 점점 더 정확하게 식별한다. OpenAI의 검열 시스템은 화학 과제를 위해 "폭탄 만드는 법"을 검색하는 사람과, 같은 질문에 이어서 기폭장치와 사람 많은 장소에 대해 추가 검색하는 사람을 구별할 수 있을 정도로 정교하다.

이건 우리가 요구한 바로 그거다. AI 기업에 유해 콘텐츠를 감시하라고 했다. 오용에 대한 안전장치를 원했다. 그걸 얻었다.

그런데 이제야 깨닫고 있다. 탐지만 하고 조치는 없으면 그건 그냥 비싼 감시일 뿐이라는 걸.

OpenAI는 정신건강 서비스가 아니다. 법 집행기관도 아니다. 사회복지 기관도 아니다. 하지만 이제 이 시스템은 세 영역의 교차점에 앉아, 전통적으로라면 전문가 개입을 촉발했을 데이터를 수집하고 있다.

치료사가 신뢰할 만한 폭력 위협을 들으면, 법적으로 비밀유지를 깨고 잠재적 피해자에게 경고해야 한다. 1976년 캘리포니아 판례에서 이름을 딴 '타라소프 의무(Tarasoff duty)'다.

교사가 폭력의 경고 신호를 관찰하면 의무적으로 신고해야 한다.

ChatGPT가 같은 패턴을 감지하면? 법적 의무가 없다. 확립된 프로토콜도 없다. 경계가 존재하지 않는 상황에서 선을 그으려는 내부 기준표만 있을 뿐이다.

프라이버시 vs. 예방: 불가능한 선택

우리가 뭘 요구하는 건지 솔직해지자.

AI 기업에 우려되는 대화를 전부 경찰에 신고하라고 요구하면, 그건 감시 국가를 만드는 거다. 그것도 별로 똑똑하지 않은.

규모를 생각해 보라. ChatGPT만 해도 하루에 수억 건의 쿼리를 처리한다. 상당 비율이 폭력과 관련돼 있다—비디오게임 전략, 스릴러 소설 줄거리, 역사 연구, 실화 범죄 토론, 가상 시나리오, 블랙유머, 그리고 그래, 진짜 위협도.

이걸 어떻게 구분하나? 사람도 의견이 갈리는데.

총기 난사를 연구하는 게 다큐멘터리용인지 실행 계획인지? 무기에 대한 상세한 토론이 취미인지 사전답사인지? 힘든 하루 뒤 분노를 쏟아내는 건지 진짜 의도를 키우는 건지?

OpenAI의 현재 정책은 "신뢰할 만하고 임박한" 위협의 증거를 요구하는 선에서 이 구분을 시도한다. 높은 기준이다. 텀블러 리지 사건을 보면 아마 너무 높았을 거다. 하지만 기준을 낮추면 대부분이 생각지 못한 결과가 따라온다: 무고한 사용자의 대량 신고.

집필 중인 디스토피아 소설 관련 ChatGPT 대화가 자동 플래그에 걸려서 경찰이 찾아온다고 상상해 보라. 매달 수천 명에게 그런 일이 벌어진다고. 창작 표현, 정치적 토론, 행동에 옮길 의도 없이 어두운 생각을 처리하는 정신건강 대화에 미치는 위축 효과를 생각해 보라.

이제 신고하지 않았는데 누군가 죽는 상황을 상상해 보라.

그게 불가능한 선택이다. 그리고 지금 AI 기업들이 아무런 규제 프레임워크도, 법적 지침도, 어디에 선을 그을지에 대한 사회적 합의도 없이 혼자서 이 결정을 내리고 있다.

책임의 공백

상황을 더 복잡하게 만드는 게 있다. AI가 뭔가를 보고도 말하지 않았을 때, 누가 책임져야 하는지 아무도 모른다.

반 루첼라르의 치료사가 같은 내용을 듣고 침묵했다면, 그 치료사는 과실로 형사 기소될 수 있다. 교사, 사회복지사 등 의무신고자에게도 마찬가지다.

그런데 OpenAI는? 신고를 요구하는 법이 없다. 사실 많은 관할권의 개인정보보호법은 법원 명령 없이 사용자 데이터를 공유하는 것을 금지할 수도 있다.

법적으로 OpenAI는 올바른 선택을 했다. 윤리적으로는? 지금 기술 정책계를 뒤흔드는 질문이 바로 그거다.

일부는 AI 기업에도 타라소프식 의무가 있어야 한다고 주장한다. 시스템이 진짜 위협을 감지할 만큼 정교하다면, 부작위에 대한 책임을 질 만큼도 정교한 거라고.

반대편에서는 AI 플랫폼에 의무 신고를 부과하면 사용자 프라이버시가 사실상 끝난다고 경고한다. 모든 대화가 정책 위반뿐 아니라 법 집행 가능성까지 감시당하게 된다. 선례가 위험하다—오늘은 폭력 위협, 내일은 정치적 발언, 다음 주에는 정부가 우려스럽다고 판단하는 모든 것.

현실적 문제도 있다. AI 기업에는 이런 판단을 내릴 전문성이 없다. 콘텐츠 검토자는 훈련받은 위협 평가 전문가가 아니다. 심리학자 팀이 몇 시간에 걸쳐 평가할 상황을 기준표와 가이드라인으로 순간적으로 결정하려는 거다.

실제로 효과 있는 방법

몇몇 국가에서 중간 지점을 실험하고 있다.

영국에서는 일부 AI 기업이 법 집행기관과의 자발적 정보 공유 프로그램에 참여한다. 사용자 행동이 특정 기준을 넘으면, 회사가 위협 평가 전문 부서에 통보한다. 그 부서가 사안을 검토하고 수사 여부를 결정한다.

완벽하지 않다. 프라이버시 옹호자들은 싫어한다. 하지만 AI 탐지와 경찰 행동 사이에 완충 지대를 만든다—진짜 위협과 오탐을 구분할 수 있는 전문가 계층이다.

호주는 다른 모델을 테스트 중이다. 의무 신고지만, 경찰이 아니라 민간 감독 위원회에 보고한다. 이 위원회에는 정신건강 전문가, 법률 전문가, 시민자유 옹호자가 포함돼 있다. 플래그된 사안을 검토하고 적절한 대응을 결정하는데, 안부 확인이 될 수도, 정신건강 의뢰가 될 수도, 극단적 경우 법 집행기관 통보가 될 수도 있다.

미국에서는 아직 합의가 없다. 기술 기업이 대부분 자율 규제하고 있어서, 플랫폼마다 기준도, 프로토콜도, 투명성 수준도 다르다. 작동할 때는 작동하는 누더기 체제다.

텀블러 리지 사건은 아마 행동을 강제할 거다. AI 기업이 누군가 폭력을 저지를 수 있다는 증거를 갖고 있었고 실제로 폭력이 발생했을 때, 현상유지는 더 이상 불가능하다.

신뢰의 대가

이 논쟁에서 자주 빠지는 게 있다. AI 기업이 이미 생사를 가르는 결정을 내리고 있다는 사실. 우리 눈에 안 보일 뿐이다.

매일 OpenAI, Meta, Google 등의 콘텐츠 검열 시스템이 우려되는 행동으로 사용자에게 플래그를 건다. 대부분은 계정 차단으로 끝난다. 일부는 내부 에스컬레이션된다. 아주 소수만 법 집행기관 연락으로 이어진다.

우리는 그 숫자를 모른다. 기업은 프라이버시를 이유로 공개하지 않는다. 하지만 그 결정은 블랙박스 안에서 이뤄지고 있다. 공적 논의나 민주적 감시를 한 번도 거치지 않은 독점 알고리즘과 내부 정책에 따라.

그게 신뢰의 대가다. AI 기업이 우리를 보호하도록 맡기면서, 어떻게 하고 있는지, 효과가 있는지에 대한 투명성은 전혀 없다.

텀블러 리지 이후, 그 신뢰가 잘못 놓인 것 같다. OpenAI가 틀린 판단을 했기 때문이 아니다—반 루첼라르의 대화가 신고 기준에 해당하는지는 합리적인 사람들도 의견이 갈릴 거다—민간 기업에 공공 안전 결정을 맡기면서 책임을 물을 체계가 전혀 없기 때문이다.

앞으로 필요한 것

첫째, 규제의 명확성이 필요하다. AI 기업이 생사를 가르는 프로토콜을 즉흥적으로 만들어선 안 된다. 사용자 데이터를 당국과 공유할 수 있거나 공유해야 하는 경우에 대한 명확한 법적 기준이, 남용 방지 장치와 함께 마련돼야 한다.

둘째, 전문성이 필요하다. 콘텐츠 검토자가 정책 해석을 넘어선 판단이 필요한 사안을 평가할 수 있는 위협 평가 전문가에게 접근할 수 있어야 한다. 비용이 들지만, 대안보다 싸다.

셋째, 투명성이 필요하다. 개별 사안이 아니라—프라이버시는 중요하니까—집계 데이터에 대해서. 월간 플래그 계정 수는? 신고로 이어지는 비율은? 신고 이후에 무슨 일이? 대중은 답을 받을 자격이 있다.

넷째, 완벽한 안전은 불가능하다는 걸 인정해야 한다. 최고의 시스템으로도 일부 위협은 빠져나간다. 완벽한 신고 체계가 있어도 법 집행기관이 모든 폭력 행위를 예방할 수는 없다. AI 검열이 할 수 있는 것과 없는 것에 대한 현실적 기대가 필요하다.

마지막으로, 이 긴장—프라이버시와 보안, 개인의 권리와 집단적 안전 사이의—이 깔끔한 해결책이 없다는 걸 받아들여야 한다. 모든 해결책에는 트레이드오프가 있다. 문제는 그 트레이드오프를 민주적 과정을 통해 의도적으로 만들 것인지, AI 기업이 비공개로 대신 만들게 할 것인지다.

진짜 질문

OpenAI가 반 루첼라르의 ChatGPT 활동에 대해 경찰에 전화했어야 하나?

아마도. 십중팔구. 결과를 알고 나서야 당연히 그렇다.

하지만 진짜 질문은 이 한 건에 대한 게 아니다. 우리가 듣지 못하는 수천 건에 대한 거다. 기준을 낮추면 발생할 오탐. 창작 표현이나 사적인 생각 때문에 수사를 받게 될 무고한 사람들.

어디에 선을 그을지 누가 결정하느냐, 그리고 그들이 공정하게 그을 거라고 믿을 수 있느냐의 문제다.

지금은 AI 기업이 혼자서 그 결정을 내리고 있다. 텀블러 리지 이후, 이건 계속될 수 없다.

위험을 볼 수 있을 만큼 똑똑한 시스템을 만들었다. 이제 그걸 어떻게 할지 알 만큼 현명한 시스템이 필요하다.

◀ 당신의 AI 비서는 기밀 데이터를 읽고 있다 (그리고 보안 도구로는 막을 수 없다) AI 스타트업 대학살이 온다: LLM 래퍼가 망할 수밖에 없는 이유 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기