AI聊天机器人在诊断青光眼和视网膜病例方面超越专家

研究设计和数据收集

这项横断面研究在一个单一中心进行，眼科学部门在Icahn School of Medicine at Mount Sinai收集了眼部数据。研究包括青光眼和视网膜专家以及眼科实习生。临床问题和病例管理问题是从美国眼科学会的常见问题中随机选择的。使用Likert和6点评分分别评估答案的准确性和完整性。

聊天机器人和专家的比较

研究包括12位专家，其中8位是青光眼专家，4位是视网膜专家。LLM聊天机器人GPT-4表现出的平均问题-病例准确性排名为506.2，超过了青光眼专家的平均排名403.4。聊天机器人的准确性排名与视网膜专家更接近，平均排名为235.3，而视网膜专家为216.1。实习生和专家对聊天机器人的准确性和完整性评价更好，超过了他们的专家同行。

限制和结论

该研究的限制包括其单一中心设计和对其他人群的有限普适性。此外，应考虑聊天机器人在复杂病例中的决策能力。然而，评估表明LLM聊天机器人在诊断青光眼和视网膜病例方面显示出相对准确性，表明其作为诊断工具的潜力。

参考文献

Huang AS, Hirabayashi K, Barna L, Parikh D, Pasquale LR.评估大型语言模型对青光眼和视网膜管理问题和病例的回答[J].JAMA Ophthalmol.2024年2月22日在线发表。doi:10.1001/jamaophthalmol.2023.6917

关于聊天机器人幻觉的误解

谷歌就由Gemini AI工具生成的有争议的图像道歉