
作者:
(1)普瓦捷大学 Andrew J. Peterson (andrew.peterson@univ-poitiers.fr)。
虽然人工智能有潜力处理大量数据、产生新见解并提高生产力,但其广泛采用可能会带来无法预见的后果。我们确定了在哪些情况下,人工智能会通过降低获取某些知识模式的成本而损害公众的理解。虽然大型语言模型是在大量不同的数据上进行训练的,但它们自然会产生朝向分布“中心”的输出。这通常是有用的,但对递归人工智能系统的广泛依赖可能会导致我们定义为“知识崩溃”的过程,并认为这可能会损害创新以及人类理解和文化的丰富性。然而,与无法选择训练数据的人工智能模型不同,如果人类认为这些知识有价值,他们可能会策略性地寻找各种形式的知识。为了研究这一点,我们提供了一个简单的模型,在这个模型中,学习者或创新者社区选择使用传统方法或依赖折扣人工智能辅助过程,并确定知识崩溃发生的条件。在我们的默认模型中,对人工智能生成的内容进行 20% 的折扣会使公众的信念偏离事实 2.3 倍,而没有折扣时则不会。最后,根据结果,我们考虑了进一步的研究方向来抵消这种结果。
在生成式人工智能出现之前,所有文本和艺术作品都是由人类制作的,有时还需要借助工具或计算机系统。然而,大型语言模型 (LLM) 能够几乎不费吹灰之力生成文本,同时模型还可以生成图像、音频和视频,这表明人类接触的数据可能会逐渐被人工智能生成或人工智能辅助的过程所主导。
研究人员指出,对合成文本进行 AI 模型的递归训练可能会导致退化,即所谓的“模型崩溃”(Shumailov 等人,2023 年)。我们的兴趣在于这种担忧的反面,而是关注对人类社会中知识分布的均衡影响。我们想知道,在什么条件下,AI 生成内容和 AI 介导的信息获取的兴起可能会损害人类思想、信息搜索和知识的未来。
人工智能生成的信息的初始影响可能有限,而现有关于人工智能危害的研究正确地集中于“深度伪造”传播的虚假信息(Heidari 等人,2023 年)、人工智能算法中的偏见(Nazer 等人,2023 年)和政治错误信息(Chen 和 Shu,2023 年)的直接影响。我们的关注点具有更长的时间范围,并探讨广泛采用而非边际采用的影响。
研究人员和工程师目前正在构建各种系统,让人工智能协调我们与其他人类和信息源的体验。这些系统包括从法学硕士 (LLM) 学习 (Chen, Chen, and Lin, 2020)、使用法学硕士 (LLM) 对搜索结果进行排名或汇总 (Sharma, Liao, and Xiao, 2024)、像传统自动完成功能一样建议搜索词或要写的单词 (Graham, 2023; Chonka, Diepeveen, and Haile, 2023)、设计系统以配对协作者 (Ball and Lewis, 2018)、基于法学硕士完成来自维基百科的知识库 (Chen, Razniewski, and Weikum, 2023)、解释政府数据 (Fisher, 2024) 和协助记者 (Opdahl et al., 2023),这些只是不断增长的列表中的一小部分。
随着时间的推移,对这些系统的依赖以及它们之间存在的多方面相互作用可能会造成“递归诅咒”(Shumailov 等人,2023 年),在这种情况下,我们对人类知识的原始多样性的获取越来越多地受到部分和越来越狭窄的观点子集的影响。随着基于 LLM 的系统的日益整合,训练数据中常见的某些流行来源或信念可能会在公众心态(以及训练数据中)中得到强化,而其他“长尾”思想则被忽视并最终被遗忘。
这个过程可能会因“回音室”或信息级联效应而得到强化,在这种效应中,反复接触这组受限的信息会导致个人相信被忽视的、未观察到的知识尾部价值不大。如果人工智能可以大幅降低获取某些类型信息的成本,它可能会通过“路灯效应”进一步造成危害,即人们在有灯的地方进行不成比例的搜索,并不是因为那里更有可能有钥匙,而是因为在那里更容易找到。我们认为,由此导致的人类知识尾部的缩减将对一系列问题产生重大影响,包括公平、多样性的包容、创新收益的损失以及人类文化遗产的保护。
然而,在我们的模拟模型中,我们还考虑到人类在积极管理其信息源方面具有战略性的可能性。如果正如我们所论证的那样,人工智能生成的内容所忽略的知识领域具有重大价值,那么某些人可能会付出额外的努力来实现收益,前提是他们充分了解潜在价值。
我们发现了一种动态,即尽管人工智能只是降低了获取某些信息的成本,但可能会导致“知识崩溃”,忽视知识的长尾效应,并在几代人中形成一种退化的狭隘观点。我们提供了一个积极的知识溢出模型,在这个模型中,个人可以决定是依赖更便宜的人工智能技术,还是投资于来自真实知识完整分布的样本。我们通过模拟研究了个人获得足够信息以防止社会中知识崩溃的条件。最后,我们总结了防止人工智能时代知识崩溃的可能解决方案。