对大型语言模型性能的改进：更近一步的探究

大型语言模型的渐进改进

该研究考察了不同规模的AI模型的性能，重点关注了OpenAI的GPT-3和Google的LaMDA。研究人员发现，模型越大，在加法运算四位数或检测讽刺等任务中表现越好。然而，在考虑到正确预测的数字数量或分配给每个答案的概率时，性能差异较小。通过提供更多的测试问题，研究人员能够减弱较小模型的性能曲线。该研究还研究了计算机视觉任务，并发现通过设置严格的正确性阈值可以诱导出明显的出现。

对出现观念的质疑

该研究对AI模型的出现观念提出了质疑，认为它可能是系统测试方式的产物。研究发现，在多项选择任务中，常常观察到明显的智能突然跃升，例如检测讽刺或翻译谚语。然而，当考虑到分配给每个答案的概率时，出现的迹象消失了。尽管该研究并不完全排除大型语言模型或未来系统中的出现，但它表明语言模型的大部分方面是可预测的。

对AI安全和政策的影响

该研究对AI安全和政策具有重要意义。出现的观念已经被一些AI社区中的人利用来引发对超级智能的担忧。然而，该研究认为，毫无根据的恐惧可能导致过度的监管或分散对更紧迫风险的关注。研究人员强调了在实际部署中基准测试和评估AI模型的重要性。他们还强调了考虑AI模型在与其预期应用相关的任务中的性能如何，而不仅仅关注其令人印象深刻的改进。

越来越多的安卓用户转向iPhone：趋势持续

被迫流亡：堕胎历史中令人不安的相似之处