对话斯坦福爆红论文作者:GPT-4“变笨了”?可能并非如此

文|林炜鑫

编辑|苏建勋

两个月前,一篇热门帖子把火遍全球的ChatGPT推上“人工智障”的风口浪尖。

帖子出现在科技新闻社区Hacker News,发帖者提到,和之前相比,GPT-4似乎变笨了:

“它的编码能力已经大大降低了。以前,每当我问一个问题。ChatGPT有时会给我一个不正确的答案,但它能够在后续问题后修复。现在,每当答案不正确的时候,不管我试了多少次,总是会返回一个错误的答案。它变得如此令人沮丧。”

许多网友借此吐槽GPT-4的糟糕表现,间接导致ChatGPT的使用量逐渐下滑。兴许是为了平息争议,OpenAI一度矢口否认,表示GPT-4模型自发布以来,并未有任何变化。“我们没有把GPT-4变笨,相反我们每个新版本,都让它比以前更聪明了。”

直到7月19日,一篇新论文将这个话题推向高潮。来自斯坦福大学和加州大学伯克利分校的三位学者研究发现,相比3月份的GPT-4,6月份的GPT-4的性能表现变差了。

之前还只能嘀咕几句的网友,争相传阅这篇论文,光是一条介绍论文的推特,就有几千个点赞与转发。苦ChatGPT久矣的网友,似乎找到了打脸OpenAI的“武器”。

论文在推特上引起广泛的讨论

论文的第一作者是斯坦福大学计算系博士陈凌蛟。攻读博士前,他曾在谷歌、微软研究院等地工作,2018年获得谷歌博士生奖研金。近一年来,陈凌蛟的研究方向主要集中在大模型服务和数据服务。

本周,36氪与陈凌蛟围绕这篇论文进行了对话。陈凌蛟表示,四月底他观察到网上很多用户对GPT的抱怨,便想做一些定量分析,“看看到底怎么回事”。研究结果则令他们大感意外,GPT模型确实不像预计的那样越变越好,相反在行为上出现较大的波动。

这些行为变化背后的根本原因是什么?网上涌现了很多猜测。有一部分人认为,OpenAI可能为了控制成本,有意使新模型性能下降。

一个证据便是,原先3小时能给ChatGPT发送100条信息,现在只能发送25条。还有一部分人怀疑,开发者往模型添加了一些安全机制,使GPT的回答更符合人类价值观,但导致GPT自身的推理能力变差。

陈凌蛟告诉36氪,以上都是合理推测,但是模型目前“完全不透明”,他没办法得出确定性的结论,这项研究只能是让用户清楚模型性能并不总是越来越好。

有趣的是,OpenAI的态度不再强硬,表示会就这个现象进一步调查。而论文刚在arXiv网站挂出不久,OpenAI便做出一个新举措:原先准备下架的3月份GPT-4模型,将会延迟到明年夏天。“(我们的论文)至少给大家争取到一年的使用时间。”陈凌蛟说。

陈凌蛟透露,针对模型性能的监测是一项长期工作,他们计划将做更精细的行为变化分析。就在8月初,他们对这篇论文进行了更新,在新文章里,回应了学术界对研究的一些质疑。

以下是36氪与陈凌蛟的对话,经36氪编辑与整理:

GPT性能出现巨大的波动

36氪:做这个研究的契机是什么?

陈凌蛟:我们很早就观察到非常多用户抱怨说,他们使用的ChatGPT或者GPT-4的性能下降。

例如,一些用户接入ChatGPT或GPT-4来搭建或改进他们的推荐系统。他们最开始接入模型时效果非常好,但一段时间后,却发现了显著的效果下降。人们想要了解究竟发生了什么。

模型的这种时移特性,是许多大语言模型用户遇到的很大痛点。因此,我们希望在这个痛点上做一些定量分析,看看到底怎么回事。

36氪:你们是想实锤一下GPT到底有没有变笨了?

陈凌蛟:我们并没有预设立场,实验的结果也并不支持这一结论。实际上,我们想了解和分析的,是它的行为如何发生变化。

这个变化对用户来说是正面还是负面,要取决于具体应用场景和诉求。但变化会给你的实际应用带来一些额外工作,至少你要去检测,并做出应对。

36氪:你们取了3月和6月这两个时间节点,是精心设计的吗?更长或更短的时间跨度,会对研究造成不同的影响吗?

陈凌蛟:这是个非常好的问题。实际上我们希望并正在做更为精细的迁移研究,不止三个月,可能是一个月,甚至是两礼拜。之所以最后是三个月周期,原因很简单,因为这是OpenAI自己提供的两个明确的时间节点,他们提供的接口有March Version(三月份版本)和June Version(六月版本)。最后的(研究)结果对我们来说也很意外。三个月的时间就产生了很大差别。

36氪:让你们意外的是什么?

陈凌蛟:一个是它在一些数学问题上的行为变化很大。比如说做素数或合数的判断,很容易,对吧?它六月份变得弱很多。一种潜在的可能是新模型并没有真的按照用户提示来完成任务,比如思维链的提示,对新模型的效果远不如老模型。

第二个,我们也看到新模型对非常多的问题倾向于不去回答,或者是给出道歉式的回答,“对不起我解决不了这个问题”。对敏感或存在攻击性的问题,这种行为是合理的。但有些时候这种不回答令人并不十分满意。

比方说,我们最近设计了份调查问卷,里面有很有趣的预测性问题,例如 “你认为将来的20年,美国在全世界的影响力是会变更大,还是会变更小”。类似这样的问题,新模型拒绝回答。这些问题并没有标准答案。但很多时候人们希望大语言模型提供的,正是对未知的、没有标准答案的问题提供参考。如果这些语言模型以前能回答,现在却回答不了,这可能会让大家很失望。

36氪:新模型拒绝回答敏感问题,是因为开发者在模型里加入了安全机制吗?

陈凌蛟:这是一种合理的推测。但我们无法确定原因,因为模型是闭源的。缺少技术细节的情况下,我们不能做确定性的回答。

36氪:关于模型行为变化的根本原因,你的推测是什么?是跟模型本身、训练数据,还是掩盖机制等相关?

陈凌蛟:我们也很希望搞清楚这个问题的原因,但是目前没有结论。你说的数据、模型结构,或者其他机制,都有可能。

这也是很多用户面临的实际问题:只掌握大语言模型的接口,但缺少内部信息。我们希望(这个研究)给用户提供一个参考。虽然不知道为什么变化,但至少知道发生了什么变化,从而在使用时心里有数。

36氪:整个研究过程中有没有比较麻烦或纠结的时候?

陈凌蛟:这个项目最大的难点,或者说最有意思的部分,就是对问题的设计。你可以问它任何问题,它总能给你答案,那么你到底问哪些问题?这个设计是比较有趣,也有一定难度。另外,你怎么设计你的指标?你问了很多问题,也得到答案,这些答案可能是千奇百怪的,那你怎么去做自动化分析,然后设计出让大家一下就明白了的这种指标。

36氪:具体应该如何设计呢?

陈凌蛟:在设计过程中,很多时候你最初的设想,和你看到的结果完全不一致,应该怎么调整。我举个例子。还是刚才那个“美国是更重要了还是不重要了”的问题。模型版本迭代了,我想看是不是同个问题的答案发生变化。那我就去测了,结果发现变化完全不是这么回事。

老模型会从四个选项挑一个,新模型没有选任何一个选项,直接说我不能回答这个问题。后来我把拒绝回答也变成其中一个选项。但新模型还是拒绝做选择,它就说,我没有办法回答带有主观性的问题。

这就得重新调整评估指标,才变成后来大家看到的回答频率,就是多少问题真正回答,多少问题拒绝回答。

36氪:你觉得这篇论文还有哪些不足?

陈凌蛟:其实有很多还没做的事情。例如,我们的测试还是停留在相对比较简单的问题上。模型在更复杂的应用场景上的变化还有待分析。

论文让OpenAI延迟下架旧模型

36氪:这篇论文在网上很火,你收到了哪些评价和反馈?

陈凌蛟:有很多建设性的反馈和建议。比如来自加州大学伯克利分校的自然语言或文学方向的教授,他对我们这个事情很感兴趣。这些大模型都是在语料很丰富的语言上训练,比如英语,那在很多语料不丰富的小语种上,这些模型呈现什么样的行为变化呢?他们很关心,建议说是不是可以对小语种做一些探索和研究,我觉得是很有价值的。

36氪:论文发表后,有两位普林斯顿教授提出质疑,觉得论文只是简单显示GPT-4行为的改变,不能等同于能力的下降。你怎么看待这个反对意见?

陈凌蛟:我们的文章在8月份有一个更新,其中对他们的质疑其实做了更完整的回应。我这边可以简单讲两句。首先我觉得他们做的分析很深入,非常好。他们质疑的也不是我们的工作,而是“GPT-4变差了”这种简单的结论。实际上我们论文里的结论一直强调是模型的行为发生了变化。更严格地说,他们的工作是对我们的一种补充。

我们最近做了额外的实验,一部分验证了他们的判断,但也得出新结论。他们认为模型的先验知识发生了变化,比如说原先倾向于认为一个数更可能是素数,但现在倾向于不是素数。但是我们也看到这种倾向性的调整在老模型上是不明显的。

36氪:“先验知识”该怎么理解?

陈凌蛟:可以理解为模型在没有外部信息时对特定问题的预设立场。拿人来类比,比如,在不看天气预报时,有人根据经验认为第二天大概率下雨,有人则认为是晴天,这就是先验。

36氪:你们又做了哪些实验?

陈凌蛟:他们(普林斯顿教授)之前说实验只做了素数,没做合数。那我们把素数跟合数放在一块,老模型大概有84、85的精度,说明它并不是纯粹的先验知识,但新模型的精度很一般,只有50%左右,就跟瞎猜差不多了。

所以说,新老模型都有先验,但是新模型受到先验影响很大。通俗地说,新模型更固执,不会变通。

36氪:所以你们想把这个研究作为长期项目进行下去?

陈凌蛟:对,我们还在持续跟进这个领域,而且我们会对后面更新的模型进行性能分析和监测。

36氪:这项研究对GPT的普通用户有什么意义?

陈凌蛟:我觉得至少有几个方面。第一个就是在使用过程当中,可以意识到GPT-4性能会有很大的波动。所以大家可能要有,我不能说警惕心,至少应该是一些心理准备。

第二个就是我们为那些非常小心或警惕的用户延长了使用老模型的时间。也就在我们文章刚挂出来没多久,OpenAI做了一个我认为是非常好的一个决策。他们把三月份版本的使用时间延长了,原本就要下架,现在至少支持到明年的七八月份。

可能OpenAI为了留住那些更认可旧模型的用户,这是比较实在的(影响),至少给大家争取到一年的使用时间。

36氪:OpenAI的人有没有找到你们做交流?

陈凌蛟:暂时没有面对面的沟通,但在网络上他们有回应。除了延长老模型的时间,他们一个相关负责人在推特上做了回应。他说他们很感谢我们的工作,已经注意到模型行为的变化,并会进一步探究到底发生什么事情。

36氪:很多媒体对这篇论文的解读就是斯坦福大学证明了GPT-4变笨了,你看到这些报道,是什么样的感受?

陈凌蛟:我能看到正面和负面的部分。从正面来说引起大家的重视,这些大模型并不是总是在各个方面都在变好的。

但反过来说,我更大的担心是,这些并不非常准确的解读会不会带给大家更多的困惑或误导。比如有的人看了之后可能理解为GPT-4不能再用了。这不是我们的初衷。恰恰相反,我们支持大家开发与使用大模型,但建议大家能够谨慎而负责地对待这些模型。

更多人涌进AI研究

36氪:你自己主要的研究方向是什么?

陈凌蛟:主要是两个比较大的方向。一个是提供大语言模型服务,用户如何使用这种服务,如何优化使用策略。不光是性能,包括反应延迟,还有开销,可能有的模型贵,有的模型便宜一点,那么用户如何做这种取舍。这其实是一个很大的研究方向。包括我们研究这种模型的行为变迁,也是使用决策当中需要去考虑的部分。

还有就是研究数据服务。模型背后支撑的重要来源就是数据。我们如何在这个数据市场里帮助用户取得比较好的性能,或者做比较明智的决策。应该买哪些数据,不应该买哪些,应该用哪些数据进行整合。我个人专注在如何去理解、使用和优化人工智能和数据的服务。

36氪:斯坦福大学在人工智能研究有很强的实力,你置身其中有哪些感受?

陈凌蛟:第一是我们这儿,至少我看到的情况,大家非常乐于去拥抱很新的技术,非常愿意学习新的知识,非常敢于进入到一个可能自己从前几乎不了解的领域。包括非常资深的老教授,并没有说为了我的名声或者怎么样,我不碰新东西。这个非常让我震撼。

第二是斯坦福有非常好的产学结合的机会。它就在硅谷,有个笑话是你在斯坦福计算系跟教授聊天,每一个人都开了一家自己的公司。这里有很多的机会,有很多投资人和公司。很多学术上的想法可以很快投入应用和生产场景当中去。

36氪:人工智能研究现在非常热门,你会感到一些竞争压力吗?

陈凌蛟:压力是有啊。我看到非常多来自各个领域的优秀学者,都涌进了人工智能领域。和优秀人才在一起,压力不可能小啦。

36氪:今年这波AI大浪潮,对产业界的冲击很大,你觉得对学术界有什么影响?

陈凌蛟:现在很多人在做大模型(研究)。我不觉得这是个坏事情。因为大模型在很多领域产生了革命性的变化。比如研究发现GPT-4这样级别的模型可以通过包括医师资格考试、律师资格考试在内的许多专业考试。这给人才培养与选拔提出了新问题:究竟什么样的考核方式,才能适应后大模型时代的人才选拔?从这个意义上,大模型至少帮助我们重新去审视人才培养乃至专业教育的问题。