微软研究推出Orca 2 LLM:一种更高效的语言模型

使用Prompt Erasure和谨慎推理进行训练

微软的Orca 2模型使用师生方案进行训练,其中一个更大的LLM充当较小的学生LLM的老师。老师被赋予复杂的提示来触发特定的推理行为,而学生只被给予任务要求和期望的回应,而不是老师的提示。这种称为Prompt Erasure的方法推动学生学会选择正确的策略。Orca 2的训练数据集是由一个师傅LLM使用详细的提示生成的,在学生的训练过程中,师傅的提示被擦除。

与基准模型的比较和性能评估

微软将Orca 2模型的性能与几个基准模型进行了比较,包括Llama 2、ChatGPT和GPT-4。基准任务包括推理、语言理解、文本补全和摘要。在推理基准测试中,具有130亿参数的Orca 2模型在除ChatGPT和GPT-4之外的所有基准模型中表现出色。微软还发现,相比于空系统提示,为Orca 2提供“谨慎”的系统提示可以略微提高性能。具有70亿和130亿参数的Orca 2模型现在在Huggingface上可用。

较小的模型和合成数据集

虽然像ChatGPT这样的LLM在各种任务上表现良好,但由于其内存和计算要求,托管这些模型可能具有挑战性。较小的模型在经过微调后也可以表现出色,并且研究人员已经探索使用更大的LLM生成的合成数据集对它们进行训练。Google的Distilling Step-by-Step方法和Stability AI的稳定Beluga模型就是这种方法的例子。微软的Orca 2训练数据集是由一个师傅LLM使用详细的提示生成的,而这种名为谨慎推理的新方法将训练任务与能引发特定问题解决策略的提示配对。