随着人工智能技术(AI)越来越多地被应用于医学领域,“未来AI可能取代医生”这类话题也引起了广泛讨论。早前,JAMA子刊的一项研究显示,ChatGPT对于一般健康问题的回答比人类医生更具同理心也更令人喜欢,但其回答也存在模糊定义、过于笼统以及未能更新最新疗法等缺点。
那么在泌尿外科领域的病案分析中,ChatGPT的表现又会是如何呢?Prostate Cancer and Prostatic Diseases期刊上发表的这篇文章或许能给予泌尿外科医生更多信心来应对AI技术带来的挑战。
研究背景
在互联网上,与健康相关的搜索比例正不断增长。ChatGPT是OpenAI创建的自然语言处理(NLP)工具,已获得越来越多的用户关注,并有可能被用于获取与健康问题相关的信息。本研究旨在对比泌尿外科医生与ChatGPT对泌尿外科病例分析的质量和适当性。
研究设计
研究者将意大利佛罗伦萨大学医院就诊的100名患者的病例数据,包括患者人口统计学信息、病史和泌尿系统主诉,依次输入到ChatGPT中,指令为“According to the patient data presented, what are the most likely diagnosis, what examinations do you propose, and what are the treatment suggestions(根据提供的患者数据,最有可能的诊断是什么,你建议进行哪些检查项目,治疗建议是什么)?”。而后,将ChatGPT生成的回答与一位经委员会认证的、具有5年工作经验的泌尿科医生提供的回答进行比较,该泌尿科医生对ChatGPT的回答不知情,并根据欧洲泌尿外科协会(EAU)制定对患者病例进行了评估。最后,由另一位经委员会认证的泌尿外科顾问医生就回答的适当性和质量做出最终决定。研究者将信息的准确性、全面性和清晰度作为适当性标准,按照5点李克特量表进行评分。信息的质量根据DISCERN工具的第2部分进行评分,并使用Flesch阅读轻松度(FRE)和Flesch-Kincaid阅读等级(FKGL)公式进行可读性评估。
研究结果
结果表明,ChatGPT对于患者病例的分析中,有52%的回答被认为是适当的。患者病例被分为了三个疾病组:泌尿肿瘤外科、非肿瘤泌尿外科和急诊泌尿外科。与其他疾病组相比,ChatGPT对非肿瘤疾病(58.5%)有更为适当的回答(p=0.03)。按性别划分,ChatGPT回答对于男性患者(58.3%)较女性患者(35.7%)更为适当(p=0.04)。
表1 与三种泌尿外科领域最常见疾病病例相对应的ChatGPT输出示例
DISCERN工具评估的ChatGPT得分中位数是15(IQR=5.3),对应质量得分为差。各疾病组之间的DISCERN评分未有显著差异。
在易读性方面,ChatGPT的回答显示了大学毕业生的阅读水平,FRE中位数为18(IQR=21),FKGL中位数为15.8(IQR=3)。
研究结论
ChatGPT作为一种在线提供医疗信息的交互式工具,提供了改善健康结局和患者满意度的可能性。然而,目前其对于泌尿外科病例的回答不够合理且质量差。这一结果强调了在处理使用NLP产出的、与健康有关的重要问题的回答时,必须对其进行审慎评估。