意义的经验理解：揭示神经网络中的内部结构

概念在意义中的作用

作者首先讨论了“理解”或“意义”在经验上的含义。他们认为意义涉及概念，并且一个词需要有一个明确定义的概念才能具有意义。即使该词没有被用来指代概念，也需要在内部具有概念表示的重要性。作者承认这种理论承诺可能不是普遍的，但认为它是直观的。

揭示内部结构

作者的研究项目专注于发现和描述神经网络内部的结构。他们旨在确定这种结构的具体形式及其在模型行为中的因果作用。这种作者所称的“意义”的内部结构并不是随机或任意的，而是一种明确定义的函数，始终执行特定任务。作者强调了在这种结构内建立关系的重要性，以回答关于模型对诸如“苹果”之类的词的理解的问题。

寻找内部结构的证据

作者在他们的研究中分享了一个令人兴奋的发现，他们发现模型内部的一个小区域代表了概念之间的连接。这个区域由一个向量表示，使得模型能够检索特定信息。例如，将该向量添加到问题“法国的首都是什么？”中，可以检索到答案“巴黎”，将同样的向量用于问题“波兰的首都是什么？”可以检索到“华沙”。这一发现表明，模型将概念分解为较小的部分，并应用通用算法对其进行推理。作者希望在未来的实验中揭示更复杂概念的类似结构。

Nvidia CEO将世界首台DGX H200交付给OpenAI

比特币跌破64000美元，科技股下跌