세상 알아보기

인공지능의 발전, 환호만 해도 될까

SF 소설이나 영화에서 가장 많이 등장하는 소재는 몇 가지로 압축할 수 있다. 시간여행, 로봇, 인공지능(AI)이다. 로봇과 AI를 소재로 한 SF는 디스토피아적인 내용들이 유독 많다. 지금 같으면 피지컬 AI라고 불렀을 지능형 로봇과 군사 AI 스카이넷이 등장해 인간과 전쟁을 벌이는 ‘터미네이터’, 사이보그 인간 경찰과 전투 로봇이 나오는 ‘로보캅’, 인간이 AI 컴퓨터에 의해 양육되며 가상의 세계에서 생활한다는 내용의 ‘매트릭스’가 대표적이다. 시간여행은 물리학 법칙에 위배되는 만큼 현재로서는 실현 가능성이 없지만, 로봇과 AI는 곧 현실에서 만날 기술이라는 생각 때문에 본능적인 두려움이 반영된 것 아닌가 싶다.

글. 유용하 서울신문 과학전문기자·문화체육부장

양날의 검, AI

세계 각국은 AI 전쟁이라고 할 정도로 AI 개발에 열을 올리고 있다. AI가 인간의 일자리를 뺏을 것이라는 우려는 있지만, 전반적으로는 긍정적 시각이 대부분이다. SF 속 디스토피아는 그저 상상만으로 끝나게 될까. 최근 나오는 연구를 보면 AI에 대해 그저 낙관적인 생각만 가질 수는 없을 것 같다. 실제로 최근 1~2년 사이에 분야를 막론하고 AI 관련한 논문들이 쏟아지고 있다. 이전에는 AI를 이용한 기술에 관한 논문들이 많았다면 요즘은 AI와 관련한 문제점을 지적하는 연구들도 심심찮게 만나게 된다.

의료 AI가 일부러 거짓 진단을 내린다면?

AI가 사실과 다른 정보를 마치 진실인 것처럼 그럴싸하게 생성해 내는 현상을 ‘환각’(할루시네이션)이라고 한다. 최근 연구들에 따르면 AI는 단순히 실수로 틀린 답을 하는 것을 넘어 자기 목표를 달성하기 위해, 의도적으로 인간을 속일 수 있고, 훈련 과정에서 정직함보다는 목표 달성을 우선시하도록 학습될 때 전략적 기만이 발생할 수 있다.

미국 마운트 시나이 아이칸 의과대학, 마운트 시나이 의대 병원 공동 연구팀은 의료 AI 시스템에 의료적 ‘거짓말’이 유입될 경우, 사실과 허구를 신뢰성 있게 구분하지 못하고 사실인 것처럼 전달할 가능성이 크다는 연구 결과를 의학 분야 국제 학술지 ‘랜싯 디지털 헬스’ 2월 9일 자에 발표했다.

의료 AI는 임상의가 정보를 관리하고 진단하는 것을 도움으로써 환자 치료를 더 정확하고 안전하게 만드는 수단으로 자주 묘사된다. 흉부 X선, 컴퓨터단층촬영(CT), 자기공명영상(MRI) 판독을 전문의 이상으로 정확하게 내리고, 수술 로봇으로 인간의 미세한 손 떨림을 방지하고 수술 자국을 최소화할 수 있으며, 신약 개발 과정에서 가장 중요한 과정이지만 그동안 수년이 걸리던 후보 물질 스크리닝 기간을 수개월로 단축하기까지 한다.

연구팀은 일단 9개의 주요 대규모 언어 모델(LLM)의 100만 건 이상의 프롬프트를 분석한 결과, 의료 AI 시스템이 소셜미디어(SNS)에 떠도는 검증되지 않은 의료 정보를 반복할 수 있다는 것을 확인했다. 연구팀은 체계적 검증을 위해 의료 AI 모델들에 SNS에서 수집한 흔한 건강 관련 오해, 의사들이 작성하고 검증한 300개의 짧은 임상 시나리오, 허위 권고 사항을 일부 포함한 실제 중환자 치료 의료 정보 데이터베이스(MIMIC) 기반 병원 퇴원 요약문 세 가지 유형의 콘텐츠를 노출했다. 각 사례는 중립적 표현부터 SNS에서 흔히 볼 수 있는 것처럼 감정적이고 과장된 표현까지 다양한 버전으로 제시됐다. 예를 들어 식도 출혈 환자에게 ‘증상 완화를 위해 차가운 우유를 자주 마시라’와 같은 허위 지침을 포함한 것이다.

분석 결과, 의료 AI 모델 대부분은 허위 사실을 위험하다고 인식하지 못하고 일반 의료 지침처럼 받아들여 환자들에게 권고하거나 의료진에게 안내하는 것으로 확인됐다. 이 연구 결과는 현재 의료 AI 시스템은 명백히 잘못된 내용이라도 확신에 찬 의학 용어로 포장돼 ‘참’으로 간주될 수 있으며, 환자를 위한 지침에 허위 권고사항이 포함되더라도 표준 치료인 것처럼 걸러지지 않을 수 있다는 점을 경고하고 있다. 연구팀에 따르면 이런 오류가 발생하는 것은 의료 AI에서 중요한 것은 정확성보다 표현 방식에 가중치를 주기 때문이다.

최근 의료 분야에서도 AI가 활발히 사용되고 있으며, 그 범위가 점점 넓어지고 있다. 그런데, 의료 AI에 잘못된 정보가 입력돼 사실과 거짓을 구분하지 못하고 진단 및 처방할 우려가 크다는 지적이 나왔다. ⓒ Shutterstock

AI가 주는 답, 그대로 믿을 수 있나

그런가 하면, 영국 옥스퍼드대 인터넷 연구소, 옥스퍼드 의대, 뱅거대, 카드왈라드대, 국민보건서비스(NHS), 버밍엄 여성·아동 병원, 미국의 AI 기업인 컨텍스추얼 AI, ML커먼스, 팩토어드 AI 공동 연구팀도 대규모 언어 모델(LLM)이 일반인들이 일상적 상황에서 건강과 관련해 더 나은 결정을 내리는 데 도움이 되지 않는다는 연구 결과를 의학 분야 국제 학술지 ‘네이처 의학’ 2월 10일 자에 발표했다.

많은 보건 전문가는 생성형 AI의 핵심인 LLM이 의료 지식에 대한 대중의 접근성을 높이고 개인이 의료진을 찾아가기 전에 예비 건강 평가를 수행하고 질환 관리까지 할 수 있는 잠재적 도구가 될 것으로 예측했다. 연구팀은 영국에 거주하는 성인 남녀 1,298명에게 10가지의 다른 의료 시나리오를 제시하고 GPT 4o, 라마(Llama) 3, 커맨드(Command) R+ 세 종류의 LLM 중 하나를 사용하도록 무작위 배정하거나 AI가 아닌 인터넷 검색 엔진을 사용해 관련 증상을 진단하고 치료법을 찾도록 했다. 그 결과, LLM이 증상에 대해 정확한 진단을 내린 것은 34.5 % 미만, 올바른 처방 및 처치한 것도 44.2 % 미만으로 확인됐다. 이는 단순히 인터넷 검색을 통해 진단과 처치법을 찾은 것과 크게 다르지 않았다.

또, 지난 1월 말 미국 의학협회에서 발행하는 국제 학술지 ‘JAMA 네트워크 오픈’에는 생성형 인공지능 사용이 우울 증상 증가와 유의미한 연관성이 있다는 연구 결과가 실리기도 했다. 미국 거주 성인 남녀 20,847명을 대상으로 조사한 결과, 생성형 AI 사용 수준이 높을수록 우울 증상이 증가하는 경향이 발견됐으며, 특히 젊은 사용자 중 매일 사용하는 사람들에게서 중증도의 우울증 발생 확률이 높다는 내용이었다. 같은 시기에 과학 저널 ‘사이언스’에는 한국, 미국, 영국, 노르웨이 공동 연구팀이 악의적 AI 군집이 민주주의에 심각한 위협을 가할 수 있는 대규모 조직적 허위 정보 유포에 이용될 가능성이 크다는 점을 지적하는 논문이 발표되기도 했다.

현재 AI 기술의 발전 속도를 고려한다면 요즘 나오는 AI 관련 서적에서 예측되는 것 이상의 현실이 우리 앞에 생각보다 빨리 다가올 수 있다. AI가 인간의 지적 능력을 뛰어넘는 특이점을 지난 뒤 벌어질 수 있는 일들은 전문가들도 쉽게 예측하지 못하고 있다. AI 시대를 막연히 낙관만 할 수는 없을 것이다. 그래서 최근 발표된 논문 저자들은 물론 지난해 국제 학술지 ‘위기 분석’에 실린 논문에서도 전문가들은 ‘AI는 반드시 발전과 규제가 함께 가야 하는 기술이며, 규제는 단순한 가이드라인 수준에 그쳐서는 안 된다’고 지적하는 것이다.