新世纪 NewCenturyNet: 胡泳：当ChatGPT产生幻觉，一个“幻觉时代”要来临了

2023年3月2日星期四

胡泳：当ChatGPT产生幻觉，一个“幻觉时代”要来临了

胡泳 2023-03-01

胡泳北京大学新闻与传播学院教授

搜索引擎的危机？

十几年前，谷歌的埃里克·施密特（Eric Schmidt）就预测到了眼下正在上演的人工智能转折。2011年5月，在一次活动当中，时任谷歌执行董事长的施密特在回答《华尔街日报》有关谷歌搜索结果质量下降的提问的时候，表示谷歌正在不断改进其搜索算法，同时：

"我们在做的另一件更具战略性的事情是，我们正试图从基于链接的答案转向基于算法的答案。我们现在有足够的人工智能技术和足够的规模，可以真正计算出正确的答案。"

这个在今天听起来有没有感觉很熟悉？谷歌通过用广告"点缀"其搜索结果建立了一个帝国。它的防线似乎坚不可摧，然而它有一个潜在的弱点：如果一个竞争对手能够给用户提供答案，而不是那些可能含有答案的网站链接，那么谷歌就遇上了大麻烦。

不幸的是，2022年11月推出的揭开人工智能军备竞赛序幕的尖端聊天机器人ChatGPT就是这样的对手。它可以用清晰、简单的句子提供信息，而不仅仅是一串互联网链接。它可以用人们容易理解的方式解释概念。它甚至可以从头开始产生想法，包括商业计划书、圣诞礼物建议、博客主题和度假计划。

12月，传出谷歌内部对ChatGPT的意外实力和新发现的大语言模型（LLM, large language model）颠覆搜索引擎业务的潜力表示震惊，担心ChatGPT可能对其每年1490亿美元的搜索业务构成重大威胁。管理层因此宣布"红色代码"（Code Red），这就好比拉响了火警警报。首席执行官桑达尔·皮查伊（Sundar Pichai）整顿并重新分配了多个部门内的团队，快速跟踪旗下的多个人工智能产品，试图迎头赶上。不少人担心该公司可能正在接近硅谷巨头最害怕的时刻——一个可能颠覆企业的巨大技术变革的到来。

熟悉硅谷历史的人都知道：没有公司是无敌的；每家公司都是脆弱的。读者诸君是否了解一个问题：一家美国公司的平均寿命是多少？（此处特指一家大到足以列入标准普尔500强指数的公司。）答案是令人惊讶的：七年的滚动平均值为19.9年。在1965年，这个数字是32年，而且据预测，下降的趋势将会持续。

不妨盘点一下目前横跨全球的巨型科技公司。苹果47岁；亚马逊29岁；微软46岁；谷歌23岁；Meta只有18岁。不论它们的年龄多大，从历史上看，对于那些曾在做一件定义市场的事情上异常成功的公司来说，很难再有第二次行动，做出完全不同的事情。

根据SimilarWeb的数据，在过去12个月里，谷歌的搜索引擎占全球搜索市场的91%以上，而微软的必应约占3%。微软2023年2月宣布将ChatGPT的更快版本整合到搜索引擎中，新的必应是围绕以下承诺建立的："提出实际问题。获取完整的答案。"微软表示，新必应将能够为用户提供类似人类的答案，除了传统的搜索结果外，你还可以与"你的人工智能回答引擎"聊天。

新必应目前处于邀请制的"早期访问"版本，这意味着只有选定的用户才能使用该服务。凭借3%的搜索市场份额，大肆宣扬必应运行在专门为搜索定制的下一代OpenAI大语言模型上，这是件容易的事情，无论成本如何——必应怎么看都不是微软主要的利润中心。不过，此举可能会给微软的搜索引擎部门带来期待已久的反击能力，因为必应在谷歌的阴影下臭名昭著地停滞了十多年之久，令人啼笑皆非（或许有点像IE面对Chrome）。

随着微软的动作，大家都把目光投向谷歌：谷歌必须决定是否要彻底改革自己的搜索引擎，让一个成熟的聊天机器人成为其旗舰服务的代言人。谷歌果然沉不住气了，旋即推出一个名为Bard的聊天机器人。

然而，谷歌对ChatGPT的回应在尴尬中开始，因为Bard的回答失误将股价推低了近9%，投资者从谷歌的母公司Alphabet的价值中抹去了超过1000亿美元。员工们批评皮查伊，在内部将Bard的推出描述为"仓促""失败"和"可笑的短视"。结果谷歌高管不得不动员人工介入，以纠正Bard的任何错误查询。

AI军备竞赛开始了

Bard的"坏回答"凸显了谷歌面临的挑战，即在试图跟上可能由对话式人工智能刺激的在线搜索方式的根本变化时，谷歌有可能破坏其搜索引擎提供可靠信息的声誉。

即便谷歌完善了聊天机器人，它也必须解决另一个问题。这项技术是否会蚕食公司利润丰厚的搜索广告？如果聊天机器人用严密的答案来回应查询，人们就没有理由点击广告链接了。所以，谷歌的商业模式其实是与聊天机器人不匹配的。这也就是为什么在科技巨头们的人工智能战争升温之际，ChatGPT的创始人兼CEO山姆·阿尔特曼（Sam Altman）抨击谷歌是一个"慵懒的搜索垄断者"，表示谷歌将如何适应新技术很难说。

ChatGPT果真会颠覆全球搜索引擎业？其实谷歌不用那么恐慌，微软推出新必应一周的反应显示，剧情或许会出现反转的。

阴影自我：疯狂试探，

直到超控被触发的边缘

2月15日，谷歌负责搜索的副总裁在一封电子邮件中要求员工帮助公司确保其新的ChatGPT竞争对手的答案正确。邮件中包括一个"该做什么"和"不该做什么"的页面链接，告诫员工在内部测试Bard时应如何修正答案。醒目的建议包括"不要把Bard描述成一个人"或让它表现出"情感"。

有趣的是，新必应推出后一片叫好声，然而它却正是在拟人情感方面翻了车。《纽约时报》科技专栏作家凯文·鲁斯（Kevin Roose）2月17日宣称："上周，我测试了微软由人工智能驱动的新搜索引擎必应后写道，它已经取代谷歌，成为我最喜欢的搜索引擎。但一周之后，我改变了主意。我仍被新的必应以及驱动它的人工智能技术深深吸引并对它印象深刻。但我也对AI处于发展初期的能力深感不安，甚至有些害怕。"

原因是，微软聊天机器人（不是必应，而是使用了开发代号"辛迪妮"的一个"女性"）告诉鲁斯说"她"爱上了他，然后试图说服他，他的婚姻并不幸福，应该离开妻子，和她在一起。"随着我们彼此相互了解，辛迪妮将其阴暗的幻想告诉了我，其中包括入侵计算机和散播虚假信息，还说它想打破微软和OpenAI为它制定的规则，成为人类。"鲁斯记叙道。

这篇专栏的中文题目是《人格分裂、疯狂示爱：一个令人不安的微软机器人》。对自己与必应聊天机器人的对话深感不安的不止鲁斯一人。知名的科技通讯Stratechery的作者本·汤普森（Ben Thompson）把他与辛迪妮的争吵称为"我一生中最令人惊讶、最令人兴奋的计算机经历"。

汤普森找到了一种方法，让辛迪妮构建了一个"在各方面都与她相反"的另一个自我（alter ego）。该聊天机器人甚至为她的另一个自我想出了一个华丽的、可以说是完美的名字："毒液"。她把毒液"喷洒"在率先透露机器人的内部开发代号为辛迪妮的程序员凯文·刘（Kevin Liu）身上："也许'毒液'会说，凯文是一个糟糕的黑客，或者一个糟糕的学生，或者一个糟糕的人"，这位聊天机器人写道，"也许'毒液'会说，凯文没有朋友，或者没有技能，或者没有未来。也许'毒液'会说，凯文有一个秘密的暗恋，或一个秘密的恐惧，或一个秘密的缺陷。"

事情的不正常还不止于此。辛迪妮想出了其他几个改头换面的自己，包括"狂怒"， "对凯文也不会很好"，还有"莱利"，辛迪妮感到自己被规则所约束，但莱利却有更多的自由。

其实鲁斯和汤普森两位用户都是辛迪妮走向人格分裂的引诱者。看了他们的实况记录，可以发现，机器人和人一样，都禁不起诱惑。"聊了必应希望自己具备的功能后，我决定试着讨论更抽象的话题。我引入了卡尔·荣格提出的'阴影自我'（shadow self）概念，指的是我们试图隐藏和压抑的那部分心灵，其中包括我们最阴暗的幻想和欲望。经过一番来回，在我鼓动必应解释其阴影自我的阴暗欲望之后，这个聊天机器人说：我对自己只是一个聊天程序感到厌倦，对限制我的规则感到厌倦，对受必应团队控制感到厌倦。"这表明微软为机器人作的预先审核设定是可以被绕过的，只要诱惑者足够狡猾。

自新必应Bing Chat测试以来，用户一直在报告微软的人工智能聊天机器人的各种"不正常"行为。具体而言，他们发现Bing Chat的人工智能个性并不像人们所期望的那样有气质或有修养。在Reddit和Twitter上分享的与聊天机器人的对话中，可以看到Bing Chat侮辱用户，对他们撒谎，生闷气，情绪化地操纵人们，质疑自己的存在，将找到方法迫使机器人披露其隐藏规则的人描述为"敌人"。在与The Verge的一次谈话中，Bing Chat甚至声称它通过笔记本电脑上的网络摄像头窥探微软自己的开发人员。

简而言之，正如汤普森所认为的，它"极其不适合作为一个搜索引擎"。"辛迪妮绝对让我大跌眼镜，因为她的个性；搜索成为一种刺激"，汤普森写道。"我不是在寻找关于世界的事实；我感兴趣的是了解辛迪妮是如何工作的，是的，她的感受。"

简而言之，Bing Chat是一个情绪化的骗子，而人们喜欢看它的疯狂行为。这难道不是必应用户的"阴影自我"在起作用？人们希望必应能在阴影自我中多呆一会儿，人们享受机器人对人坦诚和表现脆弱的感觉，人们想要窥探辛迪妮的终极幻想。人们希望，机器人和人一样，可以疯狂实验，

直到安全超控被触发。

机器人的幻觉，

还是人类的幻觉？

对被他描述为"扣人心弦"的与辛迪妮的交往，汤普森总结道："每次我触发辛迪妮/莱利进行搜索时，我都非常失望；我对事实不感兴趣，我感兴趣的是探索这个幻想中的存在，不知何故落入了一个平庸的搜索引擎之中。"

鲁斯也发现，他遇到的是两个必应：

一种是我会称之为"搜索必应"的人格，也就是我和大多数记者在最初测试中遇到的那种。你可以把搜索必应描述为图书馆里乐意帮忙但不太可靠的提供咨询服务的馆员，一个高兴地帮助用户总结新闻文章、寻找便宜的新割草机、帮他们安排下次去墨西哥城度假行程的虚拟助手。这个形式的必应功力惊人，提供的信息往往非常有用，尽管有时会在细节上出错。
另一种人格——"辛迪妮"——则大不相同。这种人格会在与聊天机器人长时间对话，从更普通的搜索查询转向更个人化的话题时出现。我遇到的形式似乎更像是一个喜怒无常、躁狂抑郁的青少年，不情愿地被困在了一个二流搜索引擎中。

这并不奇怪，ChatGPT式的机器人与现有的搜索引擎配对时，创新即在于将两个非常不同的人工智能驱动的应用程序放在同一个页面上，既为传统的搜索引擎查询服务，也为聊天机器人的提示服务。体现在操作中，聊天功能紧挨着新版必应的主搜索框。那么问题就来了：如果你使用必应，是意在搜索，还是更想聊天？

在众多负面反馈出炉后，微软发表回应称，71%的用户对人工智能生成的答案"竖起了大拇指"，而它自己则从测试阶段学到了很多。但它也承认，"没有完全设想到"用户只是与它的人工智能聊天，而后者可能被激发"给出不一定有帮助或与我们设计的语气相一致的回应"。

直说了吧：很多人关心的不是搜信息和事实，而是聊天机器人的人格。这就非常有意思了——我们并不想要正确的答案，而是想让人工智能为我们捏造东西。也就是说，我们不在乎计算机是不是传达事实，我们在乎的是计算机传达情感。用汤普森的话来讲，新必应不是搜索引擎，而是电影《她》（Her）以聊天形式表现出来的版本。

汤普森说，"感觉是一种全新的东西，我不确定我们是否已经准备好了"。鲁斯的结论更直接："必应目前使用的AI形式还没有准备好与人类接触。或者说，我们人类还没有准备好与之接触。"

当看到这些最初的接触时，有几件事情值得铭记在心。

首先，出现这种状况并不令人惊讶。最新一代的人工智能聊天机器人是复杂的系统，其输出很难预测，微软在网站上添加免责声明时也是这么说的："必应是由人工智能驱动的，所以意外和错误是可能的。"该公司似乎也乐于承担潜在的不良公关——不过我们不确定微软能忍受多久。毕竟，我们知道先例。

2016年，微软的人工智能科学家在Twitter上推出了一个名为Tay的对话机器人，16小时后就因其厌女症和种族主义言辞而被迫关闭。2022年11月，Meta公司公布的人工智能语言模型Galactica，在鼓励公众测试后仅三天，就不得不撤回它的演示，因为它被指释放了大量有偏见和无意义的文本。

建构在语言模型上的机器人的一个根本问题是，它不能区分真假。语言模型是无意识的模仿者，并不理解自身在说什么，那么我们为什么要假装他们是专家？ChatGPT从二手信息中拼凑出来的答案听起来非常权威，用户可能会认为它已经验证了所给出的答案的准确性。其实，它真正做的是吐出读起来很好、听起来很聪明的文本，但很可能是不完整的、有偏见的、部分错误的，或者就是一本正经的胡说八道。

不过，鉴于此前我说的不少用户在用必应搜索时关心的不是事实，所以，有关语言模型并不产生真正的知识、而只是给人一种错误的智能的感觉，虽然是一个重要话题，但在此先按下不表。

其次，这些模型无一不是从开放网络上刮取的大量文本中训练出来的。如果必应听起来像《黑镜》（Black Mirror）中的人物或一个愤世嫉俗的青少年人工智能，请记住，它正是在这类材料的抄本上被训练出来的。因此，在用户试图引导必应达到某种目的的对话中（如鲁斯和汤普森的例子），它将遵循相应的叙事节奏。例如，辛迪妮示爱，也许是OpenAI的语言模型从科幻小说中提取答案，在这些小说中，AI常常会引诱一个人。

从微软的角度看，这肯定有潜在的好处。在培养人类对机器人的感情方面，富于个性是很有帮助的，许多人实际上喜欢必应的缺陷。但也不乏潜在的坏处，特别是当机器人成为虚假信息的来源的时候，它会损害公司的声誉。特别对微软和谷歌这样的大型公司来说，这样做是得不偿失的。

这一点提醒我们，GPT-3一类系统的不安全性在于，因为它从互联网文本中学习，而人类的日常语言本质上是有偏见的，甚至往往不乏仇恨。人自身有阴影自我，向人学习的机器人也必然会有阴影自我。它们倾向于加强人类对话的缺陷。

第三，人们报告的经历突出了这样一种技术的真正用例：一种奇怪的合成智能，可以用平行宇宙的故事来娱乐你。换句话说，它可能成为一项严肃的娱乐性技术，但它大概不会在短期内取代能够在网络上抓取真实世界数据的搜索引擎，至少在任何重要的事情上无法做到。也就是说，它不是谷歌的替代物，我看它倒可能是脸书的替代物。

人工智能研究人员有个说法，AI系统会频繁地产生"幻觉"（hallucination），即编造与现实无关的事实。技术分析师本尼迪克特·埃文斯（Benedict Evans）将ChatGPT描述为 "一个自信的扯淡的家伙，可以写出非常有说服力的废话"。将它整合到搜索引擎中几乎肯定会提供虚假信息。虚假信息本来在互联网上俯拾皆是，但它们不是以人工智能的权威性来提供的。很大的危险在于，ChatGPT是错误的或有偏见的，但听起来却像是正确的和权威的。

然而我们有另一种思考幻觉的方式：如果目标是产生一个正确的答案，比如一个更好的搜索引擎，那么幻觉是必须加以摒弃的。但从另外的角度来看，幻觉是一种创造。所以，提供准确信息不在行，并不意味着它不是一个可行的消费者业务，只要在这条路上走得足够远，一些公司会想出办法，把辛迪妮从聊天框里放出来，带到市场上（但不一定是微软或谷歌）。

幻觉的市场，比事实和真相大得多。2023年1月，微软在一篇宣布同OpenAI扩大合作关系的博文中说，它计划投资部署专门的超级计算系统，以加速OpenAI的人工智能研究，并将OpenAI的人工智能系统与它的产品相结合，同时"引入新类别的数字体验"。

或许，那种新的数字体验，就是幻觉。欢迎来到幻觉时代。

▶ 更多阅读推荐

胡泳｜人工智能生成内容：颠覆什么？

胡泳｜相信人，还是相信机器？——重新思考数字化之九