骨科医生仍然是最可靠的信息来源:评估骨科聊天机器人的准确性

快速导读:在美国骨科医师学会(AAOS)2024年年会上,有三项新研究分析了聊天机器人在提供肌肉骨骼健康信息方面的准确性。虽然像ChatGPT、Google Bard和BingAI这样的聊天机器人可以提供简洁的摘要,但它们在某些类别中显示出了限制和不准确性。骨科医生仍然被认为是最可靠的信息来源。这些研究旨在帮助了解人工智能工具的功效以及如何改进以供未来使用。

研究1:评估LLM骨科聊天机器人的准确性

本研究评估了Open AI ChatGPT 4.0、Google Bard和BingAI聊天机器人在解释骨科概念、整合临床信息和回答患者问题方面的准确性。聊天机器人被要求回答与骨科相关的问题,并进行准确性评估。研究结果显示,虽然ChatGPT在大多数问题上提供了正确答案,但所有聊天机器人在临床管理建议方面都存在限制,并未完全解决患者问题。分析还突出了聊天机器人回答中引用过多和链接失效的问题。

研究2:评估ChatGPT在回答关节成形术患者问题方面的准确性

在这项研究中,研究人员调查了ChatGPT 4.0在回答关于膝盖和髋关节置换的患者问题方面的准确性。聊天机器人被要求根据原样和“作为骨科医生”的方式回答问题。骨科医生评估了回答的准确性,结果显示,在没有提示的情况下,ChatGPT不能够充当回答患者问题的足够资源。然而,当得到适当的提示时,ChatGPT的准确性达到了92%。

研究3:ChatGPT 4.0能否提供关于Latarjet手术的准确信息?

本研究评估了ChatGPT 4.0提供关于前肩不稳的Latarjet手术的医学信息的能力。将聊天机器人与谷歌搜索结果进行比较,以确定其准确性和可靠性。研究结果显示,ChatGPT始终提供来自学术来源的临床相关问题和答案,而谷歌则包含了学术和非学术资源的混合。ChatGPT最常见的问题类别是技术细节,其次是风险/并发症、康复时间表和手术评估。

总之,虽然像ChatGPT这样的聊天机器人有潜力成为患者和医生的有价值工具,但还需要进一步的工作来提高它们的准确性和可靠性。在骨科领域,骨科医生仍然是最可靠的信息来源。在AAOS年会上展示的研究揭示了AI聊天机器人在骨科信息方面的局限性和改进空间。