对大型语言模型性能的改进:更近一步的探究

大型语言模型的渐进改进

该研究考察了不同规模的AI模型的性能,重点关注了OpenAI的GPT-3和Google的LaMDA。研究人员发现,模型越大,在加法运算四位数或检测讽刺等任务中表现越好。然而,在考虑到正确预测的数字数量或分配给每个答案的概率时,性能差异较小。通过提供更多的测试问题,研究人员能够减弱较小模型的性能曲线。该研究还研究了计算机视觉任务,并发现通过设置严格的正确性阈值可以诱导出明显的出现。

对出现观念的质疑

该研究对AI模型的出现观念提出了质疑,认为它可能是系统测试方式的产物。研究发现,在多项选择任务中,常常观察到明显的智能突然跃升,例如检测讽刺或翻译谚语。然而,当考虑到分配给每个答案的概率时,出现的迹象消失了。尽管该研究并不完全排除大型语言模型或未来系统中的出现,但它表明语言模型的大部分方面是可预测的。

对AI安全和政策的影响

该研究对AI安全和政策具有重要意义。出现的观念已经被一些AI社区中的人利用来引发对超级智能的担忧。然而,该研究认为,毫无根据的恐惧可能导致过度的监管或分散对更紧迫风险的关注。研究人员强调了在实际部署中基准测试和评估AI模型的重要性。他们还强调了考虑AI模型在与其预期应用相关的任务中的性能如何,而不仅仅关注其令人印象深刻的改进。