AI 의료상담 믿지마세요

“챗GPT한테 증상 물어봤는데요” 정말 믿어도 될까
옥스퍼드대 연구 핵심 3가지
AI가 의료 조언에서 유독 헛발질하는 이유
반대 연구도 있어요 구글 Med-PaLM 이야기
AI에 증상 물을 때 꼭 챙길 체크리스트 7가지
이런 증상은 AI 건너뛰고 바로 병원으로
결국 AI는 도우미, 판단은 사람 몫

“챗GPT한테 증상 물어봤는데요” 정말 믿어도 될까

요즘 몸 어딘가가 이상하면 병원 가기 전에 챗GPT나 제미나이부터 켜는 분들 많아졌거든요. 저도 제가 봤을 땐 증상 설명 잘 해주면 꽤 그럴싸한 답이 돌아와서 “아 이 정도면 굳이 병원 안 가도 되겠다” 싶을 때가 있더라고요. 그런데 최근 옥스퍼드대학교에서 나온 연구 결과를 보니까 이게 생각만큼 간단한 문제가 아니었어요.

핵심만 먼저 말씀드리면, 챗봇에 증상을 물어본 그룹이 오히려 자기 상태를 제대로 파악하지 못하는 경향이 나왔다는 내용이에요. 증상의 심각도를 과소평가하거나, 필요한 조치를 늦추는 경우가 꽤 됐다고 하거든요. AI 도구를 일상적으로 쓰는 입장에서 한번은 짚고 넘어가야 할 이슈라 이번 포스트에서 연구 내용, 왜 그런 일이 벌어지는지 원인, 그리고 실전에서 어떻게 써야 안전한지까지 정리해봤어요.

옥스퍼드대 연구 핵심 3가지

옥스퍼드인터넷연구소(OII) 연구팀이 영국 일반 시민 약 1,300명을 대상으로 진행한 실험 결과예요. 참가자들에게 실제 의료 시나리오를 제시하고 챗GPT, 코히어(Command R+), 메타 라마3 같은 주요 AI 모델을 사용해서 상황을 판단하게 한 뒤, 챗봇 없이 혼자 판단한 그룹과 비교했거든요.

1. 챗봇 쓴 그룹이 오히려 심각도를 낮게 봤다

가장 충격적인 결과가 이 부분이에요. 일반적으로 AI가 있으면 정보가 더 많아지니까 판단이 정확해질 거라 기대하잖아요. 그런데 챗봇과 함께 판단한 그룹이 증상의 심각성을 과소평가하는 비율이 더 높았어요. 응급실에 가야 할 상황인데 “집에서 쉬면 될 것 같다”는 판단으로 이어지는 케이스가 꽤 됐다고 하더라고요.

2. 중요한 정보가 누락되는 경우가 많았다

연구 공동 저자인 아담 마흐디(Adam Mahdi) 연구원은 “참가자들이 챗봇에 질문할 때 중요한 정보를 누락하거나, 챗봇의 답변이 혼란스러워 결정을 어렵게 만드는 경우가 있었다”고 지적했어요. 예를 들어 “어제부터 머리가 아파요”라고만 물으면 챗봇은 그 정보만으로 답을 내놓는데, 사실 “3일 전부터 시야가 흐려졌고 오늘부터 메스꺼움도 있다” 같은 진짜 중요한 단서를 사용자가 스스로 생략하는 경우가 많았던 거예요.

3. 챗봇 모델마다 편차가 컸다

같은 시나리오라도 어떤 모델을 썼느냐에 따라 조언의 방향이 꽤 달랐어요. AI가 점점 발전하고 있긴 해도 아직 의료 영역에서는 모델 간 일관성이 확보되지 않았다는 뜻이거든요. 어느 모델을 우연히 골랐느냐에 따라 판단이 갈릴 수 있다는 건 사실 의료에서 꽤 무서운 얘기죠.

AI가 의료 조언에서 유독 헛발질하는 이유

왜 일반 지식 질문은 잘 답하는데 유독 의료에선 이런 문제가 생길까. 몇 가지 이유가 겹쳐 있더라고요.

맥락(context) 파악이 약해요

의료 판단은 나이, 기저질환, 복용 중인 약, 최근 생활 패턴 같은 맥락이 중요하거든요. 같은 “두통”이라도 고혈압 환자냐 평소 건강한 사람이냐에 따라 의미가 완전히 달라지잖아요. 그런데 사용자는 보통 이런 정보를 다 적지 않고 증상만 한 줄 던지는 경우가 많아요. AI는 주어진 정보 안에서만 답하니까 결국 핵심 위험 신호를 놓치게 되는 구조예요.

환각(hallucination) 문제가 의료에서 더 치명적

AI는 모르는 걸 “모르겠다”고 말하기보다 그럴싸한 답을 지어내는 경향이 있어요. 일반 질문이면 “아 틀린 정보네” 하고 넘어가지만, 의료에선 이 틀린 정보 하나로 실제 증상을 놓치거나 불필요한 불안을 쌓거나, 반대로 안심해선 안 될 상황에서 안심해버릴 수 있거든요.

훈련 데이터의 편향

AI 모델은 대부분 영어 의료 데이터 중심으로 학습됐어요. 한국인의 식습관, 체질, 환경과 완전히 맞지 않는 부분이 있죠. 미국·중국 데이터가 전체의 절반 이상을 차지한다는 조사 결과도 있고요. 결국 한국 상황에 바로 적용하기엔 번역·해석 단계에서 오차가 생기는 구조인 셈이에요.

증상 표현이 주관적

“조금 찌릿한 느낌”, “묵직한 통증”, “뻐근한 감” 같은 표현은 사람마다 의미가 달라요. 의사는 대면 진료에서 추가 질문으로 이걸 풀어가지만 AI는 텍스트만 보잖아요. 증상 표현의 한계가 그대로 진단 정확도 한계로 이어지더라고요.

반대 연구도 있어요 구글 Med-PaLM 이야기

다만 AI 의료가 무조건 안 된다는 결론으로 흘러가면 또 반쪽짜리 이야기예요. 구글이 공개한 의료 특화 모델 Med-PaLM 2는 미국 의사면허시험(USMLE) 수준 문제에서 86점대를 받아 전문의 수준에 근접했다는 결과도 있었거든요. 무슨 뜻이냐면 범용 챗봇(ChatGPT, Gemini)과 의료 특화 모델은 성능 차이가 크다는 얘기예요. 옥스퍼드 연구의 메시지는 “AI 의료를 하지 마라”가 아니라 “지금 당신이 쓰는 챗봇을 의사처럼 믿지 마라”에 가까워요.

AI에 증상 물을 때 꼭 챙길 체크리스트 7가지

그럼에도 불구하고 저도 자주 쓰고, 많은 분들이 쓰실 거예요. 아예 끊으라는 얘기가 아니라 안전하게 쓰는 법을 정리해봤어요.

1. 증상 설명 시 “맥락”을 함께 적기

나이, 성별, 기저질환, 복용약, 알레르기, 언제부터 시작됐는지 전부 한 번에 넣어주세요. “오늘 두통” 말고 “35세 여성, 고혈압 있고, 오늘 아침부터 왼쪽 머리 뒤쪽이 찌릿한 통증” 식으로요.

2. “응급 징후가 있나요?”를 꼭 물어보기

AI에게 단순 조언만 듣지 말고 “이 증상에서 응급실에 가야 하는 경고 신호가 있다면 알려줘”라고 반드시 추가로 물어보세요. 이 질문 하나로 과소평가 리스크가 꽤 줄어들거든요.

3. 여러 모델 교차 확인

챗GPT, 제미나이, 클로드 등 다른 모델에 같은 질문을 던져서 답이 크게 갈리면 위험 신호로 받아들이세요.

4. “의사 상담 권고” 문구 놓치지 않기

AI가 “정확한 진단은 의사 상담이 필요합니다” 류의 문장을 넣으면 실제 경고로 받아들여야 해요.

5. 처방약·용량은 절대 AI 판단으로 결정 금지

“이 약 먹어도 돼요?”에 AI가 답하더라도 실제 복용 여부는 반드시 약사·의사 확인이 필요해요.

6. 검증된 출처와 병행

AI 답을 받았으면 네이버 건강백과·대한의학회 같은 검증된 출처와 비교해보세요.

7. 아이·임산부·노인 관련 조언은 최대한 병원 쪽으로

특수 상황에서는 AI의 오차가 훨씬 치명적이에요. 실질적인 결정은 전문의 상담으로 돌려주세요.

이런 증상은 AI 건너뛰고 바로 병원으로

AI에 먼저 물어보면 안 되는, 무조건 응급실·병원부터 가야 하는 증상들이에요.

영역	위험 증상
뇌·신경	갑작스런 심한 두통, 한쪽 마비, 발음 어눌, 시야 이상, 의식 소실
심장·호흡	가슴 쥐어짜는 통증, 호흡곤란, 식은땀 동반 흉통
복부	칼로 찌르는 듯한 복통, 구토 동반 지속 복통, 혈변·토혈
외상	머리 부딪힌 뒤 어지러움·구토, 출혈이 멎지 않는 상처
알레르기	입술·혀 부음, 호흡곤란 동반 두드러기
정신과	자해 충동, 자살 생각이 구체적으로 드는 경우

이런 증상에 “챗GPT가 괜찮다고 했으니 집에서 지켜볼게요”는 정말 위험한 선택이에요. 골든타임이 분 단위인 경우가 많거든요.

결국 AI는 도우미, 판단은 사람 몫

정리하면 이렇습니다. 옥스퍼드 연구가 말하는 건 “AI를 쓰지 마세요”가 아니라 “AI를 의사 대체제로 착각하지 마세요”예요. 증상 정리, 의학용어 해설, 어느 과로 가야 할지 방향 잡기 이런 용도에는 AI가 엄청난 도움이 돼요. 하지만 진단과 치료 결정은 반드시 사람 의료진이어야 해요.

AI 활용을 좀 더 넓혀보고 싶으시다면 AI 에이전트 실전 활용법 글도 함께 보시면 도움이 될 거예요.

출처

옥스퍼드인터넷연구소(OII) AI 챗봇 의료 시나리오 연구, 2026
구글 Med-PaLM 2 USMLE 성능 보고
네이처 메디슨 — 서울대병원·하버드 의대 공동 CES 연구
미국의학협회(AMA) 챗봇 임상 활용 관련 성명

#AI의료 #챗GPT의료상담 #옥스퍼드연구 #AI챗봇 #헬스케어AI #MedPaLM #AI안전 #건강정보