ChatGPT 等大语言模型取代不了搜索引擎！

更新时间：2023-01-10 15:27:40浏览次数：3+次

　　数十年来，在许许多多的科幻小说中，人类的高科技未来始终离不开计算机系统。计算机能够通过各种界面，包括语音模式，为我们提供各种知识，就好像一个取之不尽用之不竭的知识宝库。互联网早期的目标似乎告诉我们，互联网是集合人类所有知识的一个地方。而 Meta 的 Galactica、OpenAI 的 ChatGPT 以及今年早些时候来自 Google 的 LaMDA 的诞生，似乎预示着我们即将拥有一个友好的语言界面。

　　小说创作为了方便起见，各个角色总是能知道他们应该知道的信息，但我们不能将小说中的情节误当成现实世界中技术的发展路线。事实上，Galactica、ChatGPT 和 LaMDA 之类的大型语言模型并不适合作为访问信息的渠道，基本原因有以下两个。

　　首先，这些模型的设计目的是创建看似连贯的文本。由于巧妙的构建，这些模型可以吸收大量的训练数据，并模拟单词在所有文本中共同出现的方式。结果是，这类系统可以生成在我们人类看来非常优美的文本。然而，这些系统根本不理解自己生成的文本，也不理解文本的交流意图，更无法反映真实的世界，更重要的是这些系统没有任何能力对自己言论的真实性负责。这就是为什么 2021 年一位研究人员 Bender 及其合著者称这些模型为“随机鹦鹉”。

　　其次，无所不知的计算机，这个想法的底层概念对知识的理解有着根本性的错误认识。永远不可能有一个包罗万象的、完全正确的信息集来代表我们需要知道的一切。即便你认为未来这有可能成为现实，也应该很清楚“它”并不是如今的互联网。在寻求信息时，我们以为自己需要找到问题的答案，但一般情况下，理解问题本身的过程才是最重要的地方——即提炼问题，寻找可能的答案，了解这些答案的来源，以及解这些答案代表的观点。考虑以下两个问题之间的区别：“摄氏 70 度等于多少华氏度？”以及“鉴于当前的疫情状况和自身的风险因素，我应该采取哪些预防措施？”

　　搜索信息不仅仅是尽快获得答案。当然，我们的许多问题都需要简单的、基于事实的答案，但是更多的问题需要进行一些调查。在这种情况下，重点是我们要了解相关的信息来源。虽然这需要在用户端付出更多努力，但此过程涉及重要的认知和情感处理，使我们能够更好地了解自己的需求和上下文，并在使用之前更好地评估之前搜索和收集到的信息。

　　ChatGPT 以及其他直接提供答案的对话系统都存在这两方面的基本问题。首先，这些系统会直接生成答案，跳过了向用户显示信息来源的步骤。其次，这些系统以对话的形式通过自然语言提供答案，就好像与其他人交流一样，这种交流会随着时间和个人的经历而变化，而一直以来你一句我一句的自然语言的交流都仅限于人类之间。当我们遇到合成语言输出时，难免也会信任它们，就像信任人类一样。我们认为，这些系统需要非常谨慎地设计，避免滥用这种信任。

　　自 ChatGPT 发布以来，网络上关于人们能使用它做什么的讨论铺天盖地，我们非常担心如何将这项技术呈现给公众。即使是非对话形式的搜索引擎，我们也经常看到人们对它们的过分信任：如果搜索系统将某些内容放在结果列表的顶部，我们就倾向于认为这是一个良好的、真实的或具有代表性的结果；相反，对于搜索引擎没有找到结果，我们很容易相信它不存在。

　　然而，正如 Safiya Noble 在著作《Algorithms of Oppression》中警告我们的那样，这些平台并不是对世界现状或人们谈论世界的方式的中立反映，其中掺杂着各家公司的利益。作为公众，我们迫切需要了解概念化信息访问系统的工作原理，尤其是在这一刻，我们认识到，尽管表面上看来这些模型给出了流畅的答案，但并不意味着这些信息准确、有价值或可信。