2024年6月13日,剑桥校友兼老朋友张铁光给我转了公众号“北府视界”发布的一段视频,标题是“人工智能之父辛顿云顶集团:AI认知的哲学性颠覆”,里面说2024年4月8日爱尔兰都柏林大学学院向杰弗里·辛顿颁发了尤利西斯奖章。这所名叫“学院”的大学成立于1854年,当时名叫“爱尔兰天主教大学”。首任校长是著名教育家约翰·亨利·纽曼。纽曼上任前出版的《大学之道》(The Idea of a University)是教育学的经典著作。该校1908年成为爱尔兰国立大学的三个学院之一,于是便有了现在这个校名。都大校友中最著名的一位是作家詹姆斯·乔伊斯。他最著名的作品是现代主义文学奠基之作、意识流小说《尤利西斯》(1922),尤利西斯奖章就是为纪念乔伊斯而设立的。2013年这一奖章颁给了乔姆斯基,辛顿在获奖感言里却说:“语言学家被一个名叫乔姆斯基的人误导了好几代——此人实际上也获得了这枚享有盛名的奖章。”(陈国华译 2024:491)此话让现场听众哄堂大笑。我想知道辛顿究竟说了些什么,便从视频网站“油管”(YouTube)上找到了颁奖仪式的完整录像。
仪式上先由都大计算机科学学院的研究、创新与影响主任安褚·海因斯宣读尤利西斯奖评委会对辛顿的表彰,接着是辛顿发表获奖感言。海因斯虽是在念稿子,却由于心情紧张,出现了不少口误;辛顿演讲时虽不时瞥一眼面前的电脑屏幕,却并非在照本宣科,结果他的感言中不仅时有口误,而且有许多口语特征。“油管”本身带有语音转写功能,其转写出来的海因斯和辛顿的讲话,准确率虽相当高,但除了用撇号’代表I’m、I’d、you’re、it’s等省音附着词(clitic)所省略的音和字母外,基本没有标点符号。两位演讲者的口误加之“油管”语音转写系统本身的缺陷给文本校勘带来不小的挑战,这种校勘如果交给AI处理,挑战难度恐更大。下面笔者以自己在校勘这两篇讲话文本过程中发现的两处转写和翻译错误为例,谈一下我对反向传播与深度学习的关系、深度学习与常识的关系以及人工神经网络与语符使用规则的关系的看法,最后简短评价辛顿对乔姆斯基的批评。
一、反向传播与深度学习
默卡洛克和皮茨(McCulloch和Pitts 1943)提出人工神经元的数学模型,遵循仿生学研究思路的AI研究者以辛顿为引路人,模拟人类大脑神经网络的工作原理,提出人工神经网络模型,并将反向传播算法用于训练人工神经网络进行深度学习,使之学会通过调节所输入图像和语音数据各层级特征的权重,并将之与相关语符匹配,从而做到高度准确地识别图像和语音,并且相当准确地预测语句中下一个语符是什么,从而在自然语言处理方面取得了迄今任何语言学理论无法比拟的长足进步。鉴于这种神经网络正确捕捉到了识别对象的语义和搭配特征,可以输出堪与自然语言媲美的人工语言,辛顿有充分理由说该网络可以学会经其处理的语符。鉴于这种学习已经穿透多层级神经网络而进入语符的语义层面,称之为“深度学习”也没有问题。不过,从日常语言的视角来看,这种学习模式实质上即英文所谓trial and error,即试错式学习,跟摸着石头过河差不多,学习到的知识并没有多深。不仅人类采用这种方式学习,一切智能生物都如此,人类只不过把它运用到了自己的语言学习上,而AI研究者又在人工神经网络上成功模拟了人类的这种学习方式。既然这种体验式、纠错式的学习门槛比较低,所有智能生物都会,由此学到的知识,深度必然有限。即使用到对自然语言的学习上,所学知识的深度也必定有限。例如幼童可能会背许多古诗,但不一定完全理解诗里的意思;人类可以通过强化(reinforcement)的方式教会许多具有较高智商的动物理解人类的一些指令,但这些指令表达的意思非常有限。要想做到真正的深度学习,还得让AI更深入地探索人类的语言世界。
二、深度学习与常识
一次采访中,辛顿被问到他为何如此笃定深度学习足以复制一切人类智能,他说“我的确相信深度学习将能够做一切事情”(Hao 2020)。如果他所谓“深度学习”即AI通过反向传播来学习,这种说法未免有些夸大其词。首先,人类并非仅通过试错这一种方式学习。创新思维所必不可缺的类推式学习(learning by analogy)以及让人顿悟的难得灵感,都不是试错式学习。其次,有些事情单靠反向传播或深度学习永远也学不会。例如海因斯博士宣读颁奖词前招呼参会嘉宾的话,“油管”的转写和ChatGPT4o的译文以及经笔者校勘的文本和笔者的译文是下面这个样子:
就这段音频的转写而言,如果不考虑标点符号和大小写,“油管”的准确率还是挺高的,唯一的错误是AA Usha,但这个错误很难归咎于“油管”的转写系统准确度不高,因为笔者本人将此处音频放慢速度,反复细听,绞尽脑汁也想不出这一明显错误的原文究竟是什么。最后只好在谷歌上搜索president, registrar, distinguished guests, colleagues,看colleagues之后会跟着出现哪些词,结果发现是ladies and gentlemen。由于这三个词的意思在这里说得通,于是我将AA Usha替换成ladies and gentlemen。问题貌似解决了,但解决方案并非通过深度学习排除所有可能的错误后找到的,倒可以算是用搜索引擎做的自动补全(autocomplete)。既然是自动补全,就无法保证所补成分百分百正确。这个转写错误直到我对转写文本进行第6次修订才得到无可辩驳的改正。当时,为了弄清楚都大College of Science的college与school这两个词之间究竟是什么关系,我进入都大的官网,发现里面有些内容不是英文,立马想到应该是爱尔兰文。在一所爱尔兰大学的颁奖仪式上,演讲者在恰当之处用一个爱尔兰语表达式,是一件再自然不过的事。为了判断自动补全所补的ladies and gentlemen是否正确,我把它输入到谷歌翻译里,选爱尔兰语作为输出语言,输出的结果正是a dhaoine uaisle,与音频此处的发音完全匹配。
早在4年前辛顿就表示,对于AI或深度学习而言,“常识(common sense)是下一个需要解决的重大能力”(Hao 2020)。由此我猜想,任何一个自动转写系统,假如以常识作为转写的一个参数,凡与某一国家相关的音频,就把该国语言的词汇作为备选项,遇到类似a dhaoine uaisle的问题,便会迎刃而解。再看ChatGPT的翻译系统,它似乎有自知之明,知道自己不知道转写文本里的AA Usha是什么,于是采用非故意虚构(confabulation)1的办法,将之匹配成“亲爱的”,置于“同事们”之前,结果弄巧成拙。假如ChatGPT也以常识作为一个参数,就会避免出现因耍小聪明而导致误译。
三、人工神经网络与语符使用规则
再看ChatGPT对the President Neil Hurley our Head of School的误译。辛顿或伊利亚·苏茨基瓦当然可以说,笔者起初以为此处误译的根源是“油管”转写的文本没有标点符号。但笔者随后发现,即使把人工校勘过的版本喂给ChatGPT,后者的译文虽有所变化,尼尔·赫利的身份却仍然不对。比较:
On behalf of the President, Neil Hurley, our Head of School of Computer Science, and all of my colleagues here at the University, it’s my pleasure to …
我代表校长尼尔·赫利、计算机科学学院院长以及在此的所有同事,隆重……
这一误译说明,ChatGPT的翻译系统尽管分别学会了President和Head of School的意思,也很可能知道Neil Hurley是个人名,却显然没有正确理解这三者之间的语义关系。
辛顿曾表示,研究智能,“着眼于符号的思路是一种非常合理的尝试。但我猜我们最终会意识到符号只是存在于外部世界,而我们只是对大向量进行内部操作”(Hao 2020)。在获奖感言里,他对自己的观点做了一些修正,不再说“符号只是存在于外部世界”,转而认定“了解人是如何学会做控制自己的身体或识别物体之类的事情”先于学会“用符号规则操纵符号表达式”(陈国华译 2024:492)。
笔者认为,从人类身心发育的进程和AI研究顺序的视角来看,辛顿的话不无道理。但是婴儿学习控制自己的身体或识别物体与他学习语符及其使用规则,从他开始学说话时起,就不再是一先一后的关系。也就是说,对于长到1岁左右的儿童来说,这两种学习实际情况是在并驾齐驱。AI,包括AI神经网络在内,如果学习一些语符的使用规则,其智能很有可能提高得更快,工作效率很可能更高。
拿the President, Neil Hurley, our Head of School of Computer Science这个词串来说,只要人工神经网络里包含两条文法规则:1)“the + 职务 + 姓名”中的“职务”与“姓名”无关;2)“职务 + 姓名”的“职务”与“姓名”相关,就不会出现“校长尼尔·赫利”这种误译。误译1避免了,误译2“(计算机科学学院的负责人)”是对“校长尼尔·赫利”的补充说明,也就随之避免了。为了从根本上避免听众和读者误解,海因斯讲稿里此处的行文方式应该是on behalf of President Orla Feely或on behalf of President Feely,而不是简单的on behalf of the President。即使原文里没有Orla Feely或Feely,一个有篇章理解能力而不是仅能预测下一个语符的神经网络也会自主从上文里找到都大校长的姓名并添加于此。
四、辛顿对乔姆斯基的批评
辛顿说“语言学家被一个叫乔姆斯基的人误导了好几代”(陈国华译 2024:491)。我早年精读过乔姆斯基早期的几部著作,感觉深受启发;后来读了他的其他著作,感觉其理论基础有问题,尤其是他提出的“语言官能”(linguistic faculty)假说和普遍语法(universal grammar)理论。人们至今没有发现人类有哪个器官,包括嘴巴、舌头、喉咙在内,除了说话不做其他事;也没有发现任何一条语法规则适用于世界所有语言。于是乔姆斯基只好说普遍语法就是人类心智语法(mental grammar)的初始状态(initial state)。然而这种初始状态究竟是什么样子,一直说不清、道不白。如果说他早年的著作启发了不少人,他后来的理论确实将不少人引入了歧途。
辛顿说乔姆斯基“有一个偏执古怪的理论,即语言不是学会的”(同上)。我对乔姆斯基观点的理解是,他认为人的语言不是像学算数那样学会的,而是凭藉其天生的语言获得装置,通过接触有限的语言输入,自然获得的。我认为,就儿童口语能力的发展而言,这种看法基本符合实际;但任何一种语言,只要有其书面形式,人们阅读和书写这种语言形式的能力一定是通过有意识的教和学学会的。
辛顿说“大型神经网络学习语言,不需要任何先天结构,只是从随机权重和大量数据中开始学习”(同上)。“先天”和“后天”说的是生物的遗传特征和获得特征。大型神经网络是一种人工制品(artefact),没有先天和后天之别。如果将“先天”理解成隐喻,那么运行这种网络所要的特定类型的芯片就是其凭藉的先天结构。要不是计算机硬件专家研发出具有超大算力并可进行并行运算的GPU,ChatGPT这样的大语言模型也难以取得目前的成绩。
辛顿说“乔姆斯基从来没有提出任何一种有关语义的理论”(陈国华译 2024:491-492)。乔姆斯基曾写过《生成语法中的语义研究》(Chomsky 1972)一书。笔者读过后发现里面收录了他的三篇论文。第一篇没有怎么阐述语义问题。第二篇阐述生成语法的句法结构和语义表征之间的关系,作者称自己写此文的目的是要发展出一套理论,藉此说清楚“一句话里以某种仍待发现的表征系统表征的内在意思是怎样与其形式的方方面面相关联的”(Chomsky 1972:63)。其理论的内核是,一句话有其表层和深层两个结构,“深层结构包含所有词项,每一词项都带其语法特征的补充成分”(Chomsky 1972:65),“深层结构根据语义解读的规则决定着这句话的语义表征。”(Chomsky 1972:66)。第三篇主要批驳乔治·雷考夫等人提出的生成语义学。乔姆斯基的深层和表层结构理论尽管给语义留有一席之地,却算不上有多大价值的语义理论,最后被乔姆斯基自己抛弃了。
注释:
1. 辛顿对confabulation有详细解释(见陈国华译 2024:495)。
参考文献:
陈国华译,2024,杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言。《当代语言学》第4期,489-495页。
Chomsky, Noam. 1972. Studies on Semantics in Generative Grammar. The Hague: Mouton.
Hao, Karen. 2020. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything”. MIT Technology Review. [https://www.technologyreview.com/2020/11/03/1011616/ai-godfather-geoffrey-hinton-deep-learning-will-do-everything/][2024年12月12日最后访问]
McCulloch, Warren S. and Walter Pitts. 1943. A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics 5:115-133.
作者简介:
陈国华,男,博士,北京外国语大学外国语言研究所教授。近4年的主要学术成果包括:陈国华译(2023)《大宪章》(商务印书馆(汉译世界学术名著丛书)、陈国华(2023)“《举业童子问》:新发现的现存最早本土中文文法”、索绪尔原著,巴斯金英译,陈国华、卢培培导读并注释(2022)《普通语言学教程》、威廉·莎士比亚著,安褚斯、维南德主编,陈国华中文总主编(2021-2022)《中文详注剑桥莎士比亚精选》(14卷)、陈国华等(2020)《新型初级汉英教学辞典编纂研究》以及李腾龙、陈国华(2020)《基于西方语言学与传统文字学的汉字构字理据及排序研究》。
往期回顾:
《当代语言学》过刊电子版下载:
https://www.ncpssd.org/journal/details?gch=82143X&nav=1&langType=1
《当代语言学》电子版微信小程序订阅: