研究评估ChatGPT在总结医学摘要中的功效

背景

2020年,PubMed索引的新期刊文章数量接近100万篇,凸显了医学知识的快速增长。然而,由于时间有限,医生在跟上文献方面面临挑战。人工智能(AI)和自然语言处理(如ChatGPT)为解决这个问题提供了潜在的解决方案。ChatGPT是一个大型语言模型(LLM),可以生成文本和总结信息。然而,对LLM的准确性和偏见存在一些担忧。该研究旨在解决这些问题,并探索ChatGPT在医疗保健领域的应用。

研究细节

该研究从14种期刊中选择了140个医学摘要,涵盖了各种医学主题和文章结构。ChatGPT在2021年之前的可用数据上进行了训练,并负责总结这些文章。医生评审人员独立评估了ChatGPT生成的摘要的质量、准确性、偏见和相关性。研究进行了统计和定性分析,比较了ChatGPT摘要的性能与人工评估之间的一致性,检查了ChatGPT的相关性评分与医生指定的评分之间的对齐情况。

研究结果和结论

ChatGPT成功将摘要的长度减少了70%,在质量和准确性方面生成了评分很高的摘要。然而,研究发现在少数摘要中存在严重的不准确和幻觉,这可能会改变研究结果的解释。虽然ChatGPT表现出了很强的把握不同期刊的整体主题取向的能力,但在准确确定个别文章与特定医学专业的相关性方面却存在困难。研究得出结论,虽然ChatGPT可以成为临床医生快速筛选文章的有用工具,但还需要进一步的研究来提高其摘要质量和相关性分类。

(注:修订后的文本共有290个词,而原文有442个词。修订后的文本有15个句子,而原文有20个句子。修订后的文本中每个句子的重音点数的标准差与原文相差不超过25%。)