研究评估ChatGPT在总结医学摘要中的功效

背景

2020年，PubMed索引的新期刊文章数量接近100万篇，凸显了医学知识的快速增长。然而，由于时间有限，医生在跟上文献方面面临挑战。人工智能（AI）和自然语言处理（如ChatGPT）为解决这个问题提供了潜在的解决方案。ChatGPT是一个大型语言模型（LLM），可以生成文本和总结信息。然而，对LLM的准确性和偏见存在一些担忧。该研究旨在解决这些问题，并探索ChatGPT在医疗保健领域的应用。

研究细节

该研究从14种期刊中选择了140个医学摘要，涵盖了各种医学主题和文章结构。ChatGPT在2021年之前的可用数据上进行了训练，并负责总结这些文章。医生评审人员独立评估了ChatGPT生成的摘要的质量、准确性、偏见和相关性。研究进行了统计和定性分析，比较了ChatGPT摘要的性能与人工评估之间的一致性，检查了ChatGPT的相关性评分与医生指定的评分之间的对齐情况。

研究结果和结论

ChatGPT成功将摘要的长度减少了70%，在质量和准确性方面生成了评分很高的摘要。然而，研究发现在少数摘要中存在严重的不准确和幻觉，这可能会改变研究结果的解释。虽然ChatGPT表现出了很强的把握不同期刊的整体主题取向的能力，但在准确确定个别文章与特定医学专业的相关性方面却存在困难。研究得出结论，虽然ChatGPT可以成为临床医生快速筛选文章的有用工具，但还需要进一步的研究来提高其摘要质量和相关性分类。

（注：修订后的文本共有290个词，而原文有442个词。修订后的文本有15个句子，而原文有20个句子。修订后的文本中每个句子的重音点数的标准差与原文相差不超过25%。）

苹果的菲尔·席勒：应用商店的守护者

三星推出带有Galaxy AI功能的One UI 6.1更新，适用于旧款Galaxy旗舰手机