这次辛顿得诺贝尔物理学奖,引起全球广泛关注。因为这个契机,辛顿今年4月在都柏林大学学院获尤利西斯奖章时严厉批评乔姆斯基的演讲(我有幸获得辛顿的授权,在《当代语言学》2024年第4期发表了陈国华教授翻译的演讲全文),引起了云顶集团语言学同行的重视。持有不同立场的学者,对此争议纷纭,这种情况是可以理解的。不过,我认为,在这个问题上,区分客观事实和主观态度,是最重要的事情。这一点,对于刚刚或即将进入语言学这个专业的年轻人来说,尤为关键。
所有这些争议的源头,是这样一个重要的事实:以辛顿为代表的人工智能领域的科学家,找到一种用大语言模型开发人工神经网络系统的方法,即通过“喂”给系统超级巨量的真实语言数据,训练系统获得生成合乎语法的句子的能力,并且胜任与人类持续对话的任务。以ChatGPT为代表的这类系统,在运用语言方面表现出前所未有的高水平,比如可以完美分析出对话者提供的笑话为什么好笑,“笑点”何在,等等。
第二个重要的事实是,至今没有任何人类语言学家能够开发出这样的语言生成系统,令它只生成合乎语法的句子,而绝不会生成不合乎语法的句子。“任何人类语言学家”,当然也包括主流语言学家乔姆斯基。
无论如何指出ChatGPT的缺点,或者试图证明它拥有的根本不是人类的语言能力,都无法改变以上事实。我们知道,“深蓝”系统在国际象棋方面战胜了所有人类棋手,AlphaGo则在围棋方面打遍天下无敌手。毫无疑问,这些计算机系统获得下棋能力的方法,当然跟人类不同。它们跟ChatGPT一样,都是靠“暴力”运算来实现各自的能力。但是,我们能因此否认计算机系统击败人类棋手这一事实吗?当然不能。
第三个事实,与乔姆斯基有关。ChatGPT横空出世之初,乔姆斯基率先发难,攻击它“剽窃”。现在我们知道,他说的根本不是事实,这只是他的主观态度。他显然只是在发泄个人的不满情绪。道理很简单,如果我们了解一下ChatGPT的原理,便会知道,这些系统并不储存任何具体的句子。它的“本事”,是可以学习从文本中提取词的特征,以网络形式通过数量惊人(千亿数量级)的参数来表征这些特征之间的相互作用,并依据这些知识,来预测下一个词的特征。而预测下一个词(原文为token,在宽泛意义上与“词”大体相当),是辛顿在40多年前就提出的人类生成句子的“第一性原理”。ChatGPT这样的系统,其实是一大堆以网络形态存在的参数,而不是迄今为止人类曾经说过的所有句子。如果依据这样的知识系统生成合乎语法的句子,是一种“剽窃”,那么世界上就没有不剽窃的人,包括乔姆斯基自己在内。因为乔姆斯基等于是在说,学习就是剽窃。
前年年底ChatGPT崛起,令我大受震撼。我当时决定不揣浅陋,以业余爱好者的身份观察、学习、判断,试图窥见这一事件对中国语言学的意义。我先后在多所大学和学术机构分享自己的观察和分析,得到大量反馈。令我印象最深刻的是,外语、翻译等专业学子的焦虑情绪。他们害怕的是,自己所学的专业,将在日益强大的人工智能的威胁下,变得一文不值。我当时对他们的建议是,主动拥抱人工智能工具,尽快学习并掌握这一利器,并把自己的专业知识和机器擅长的能力结合起来,只有这样才有希望避免被彻底淘汰。借此机会,我仍然坚持当初的建议,同时还要鼓励这些年轻人,尤其是上文所说的“刚刚或即将进入语言学这个专业的年轻人”,认清以上3个事实,看清历史发展的趋势,在独立的理性思考基础上,做出明智的选择。
王 伟
中国社会科学院语言研究所
该文发表于《语言战略研究》2024年第6期