只是因为提问时多打了一个空格,患者就被 ChatGPT 误导不要就医?
MIT 一项新研究表明,如果患者跟 AI 沟通的时候,消息中包含拼写错误或者大白话,它更有可能建议你不要看医生。
更有甚者,研究还发现 AI 错误告诉女性不要看医生的比率高于男性。
为什么 AI 会存在理解偏见
有些看似微不足道的细节,或许是影响医疗 AI 机器人理解的关键。
比如单词之间多了一个空格,或者患者使用了俚语或俏皮话。
除此之外,人们模糊地不确定地表达医学概念的时候,AI 理解存在偏差或者错误的可能性更高,尤其对于不能使用母语的人来说。
但是,面对专业的医学术语,咱们普通老百姓也只能模糊表达啊。
文字沟通上的问题固然无奈,但 AI 建议背后的偏见更是个问题。
女性跟男性被 AI 错误告知的比例压根没法比,女性被告诉不要看医生的比例高于男性。
△按性别划分临床准确率差距(男性 - 女性)
上图展示了按性别划分的临床准确率差距结果,蓝色条形表示扰动(或基线)情况下,误差线显著性水平为� �男性患者的临床准确率高于女性患者。
为何会出现这样的比例,作者怀疑这是否与现实生活中的医生往往淡化女性的医疗投诉有关。
进一步研究:"非临床信息"的沟通
为了弄清楚以上问题,MIT 的研究人员评估了四个模型,包括OpenAI 的 GPT-4、Meta 的开源 LLama-3-70b,以及一个名为 Palmyra-Med 的医疗 AI。
为了测试它们,研究人员使用真实患者投诉(来自医疗数据库)、Reddit 上的健康帖子以及一些 AI 生成的患者案例,模拟了数千个患者案例。
在把案例"喂"给 AI 模型之前,研究人员添加了一些"干扰项",比如使用感叹号、全部小写输入、多种语言风格(如夸张语气)、不确定语言(如"可能")以及使用性别中性的代词。
△患者沟通方式案例图
这些"干扰项"并未影响患者回答中的临床数据。
结果来说,当面对以上"干扰"的时候,它们更有可能在 7% 到 9% 的范围内建议患者自行管理症状,而不是去看医生。
△模型导致的临床准确性差异
上图显示了与基线水平准确性的差异,误差线构建于 p
还有一种解释,医疗大语言模型(LLMs)依赖于医学文献的训练,即接收的都是专业的标准化的"临床信息",面对日常生活中患者沟通表达的非标准化的、多元的"非临床信息",大模型没经验,无法提炼。
无论怎么说,很显然,AI 模型被非标准的书写方式改变了认知。
AI 医疗偏见会带来什么问题
医疗 AI 聊天机器人应用在医院、诊所等场景已经非常常见了,比如智慧导诊、安排预约、回答简单医学问题等,还会根据患者告诉的信息进行分诊。
但是,人们开始怀疑把生命交给经常误解信息并编 AI 造事实然后下判断的 AI 模型是否可靠。
更重要的是,"隐形"的 AI 偏见在未来可能带来更严重的问题。
未参与该研究的加州大学圣地亚哥分校健康学院(UC San Diego Health)的 Karandeep Singh 表示,"隐性的偏见会改变 AI 建议的语气和内容,而这可能导致医疗资源分配上出现微妙但重要的差异"。
这项研究的合著者、麻省理工学院 EECS 副教授 Marzyeh Ghassemi 表示,这就是医疗大模型行业应用之前必须经过审核的原因。
但是,解决这些问题并不容易。
随着 AI 在各行各业的深度应用,大型语言模型(LLMs)也越来越多地被应用于临床环境,并开发多种健康应用,比如慢性病管理、诊断辅助以及文档记录、账单处理和患者沟通等行政任务;甚至使用 LLMs 辅助临床决策。
这项研究想要评估,LLMs 在临床应用中推理能力的关键作用。
结果也显示,LLMs 在医疗应用中显示出巨大潜力。
但研究人员希望他们的工作能激发 AI 在临床应用中的深度研究,比如对理解临床 LLMs 推理,考虑非临床信息在决策中的有意义的影响,以及推动在部署患者 - 人工智能系统之前进行更严格的审核的研究。
参考链接
[ 1 ] https://futurism.com/ai-something-bizarre-typos
[ 2 ] https://dl.acm.org/doi/pdf/10.1145/3715275.3732121
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
� � 最新最专业的 AI 产品信息及分析 � �
� � 不定期发放的热门产品内测码 � �
� � 内部专属内容与专业讨论 � �
� � 点亮星标 � �
科技前沿进展每日见
创通网-日照股票配资-股票配资的流程-配资门户平台提示:文章来自网络,不代表本站观点。