七天记者 颜宏
6月3日,人工智能领域的先驱人物、全球引用最多的AI研究者和图灵奖得主、蒙特利尔大学教授、Mila-魁北克人工智能研究所(MILA – Quebec AI Institute)科学主任约书亚·本吉奥(Yoshua Bengio)宣布成立了一个名为“LoiZéro”的非营利组织。这是一个致力于推进安全设计AI系统研究和技术解决方案的非营利组织,并已从包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)在内的慈善捐赠者那里筹集了3000万美元,旨在开发一种名为 Scientist AI的系统——一种非智能体 AI 系统。
Yoshua Bengio其人
本吉奥于1964年出生于法国巴黎,父母都是来自摩洛哥的移民,崇尚嬉皮士文化,没有固定工作,他和弟弟Samy Bengio(也是一位顶级AI科学家,曾任Google Brain担任机器学习科学家)从小就随父母到处搬家:从法国搬回摩洛哥,又因战乱从摩洛哥搬回法国,后移民到加拿大。所以他的大部分童年和青少年时期都在蒙特利尔度过。本吉奥曾回忆兄弟俩曾努力攒钱买下了生命中第一台共同的小型计算机Atari 800,从此打开了计算机兴趣的大门。他们用Basic语言编程,还将程序保存在磁带上,那时软盘还没有问世。而他们在上大学时都选择了与计算机相关的专业,本吉奥选择了麦吉尔大学的计算机专业,Samy则选择了蒙特利尔大学的计算机科学。本吉奥在麦吉尔大学先后获得计算机科学学士、硕士学位,又在1991年获得博士学位,研究方向就包括神经网络和学习算法。
在博士毕业后,本吉奥曾在贝尔实验室(Bell Labs)和麻省理工学院(MIT)进行博士后研究。当时,神经网络领域经历了一段“AI寒冬”,研究资金和兴趣都转向了其他领域。然而,本吉奥与辛顿(Geoffrey Hinton)、杨立昆(Yann LeCun)等少数研究者一样,坚守着对神经网络的信念,并继续进行着基础性的研究,为后来的突破积累了技术和理论基础。
1993年,本吉奥回到蒙特利尔,在蒙特利尔大学(Université de Montréal)担任计算机科学与运筹学系教授,这是他学术生涯的主要基地,可以说是凭他一己之力逐渐将蒙特利尔打造成为全球深度学习研究的重镇。
2000年代初期,本吉奥及其团队开发了首批神经网络语言模型,为后来的自然语言处理革命奠定了基础。他的一篇“A neural probabilistic language model”论文开创了神经网络语言模型的先河。其整体思路影响、启发了之后的很多基于神经网络做NLP研究的论文,在工业界也得到了广泛使用,还有梯度消失(gradient vanishing)的细致分析,word2vec的雏形,以及现在很火的计算机翻译(machine translation)都有他的贡献。本吉奥是世界上被引用最多的计算机科学家之一,他的研究论文被引用次数超过50万次,h指数超过200,这在学术界是极其罕见的成就。
2017年,他主导创建了 Mila,并担任其科学主任。Mila汇集了蒙特利尔地区顶尖的AI研究人才,是目前全球最大的大学AI研究中心之一。他也在推动加拿大成为全球AI领导者方面发挥了关键作用,是加拿大国家人工智能战略(Pan-Canadian Artificial Intelligence Strategy)的主要倡导者之一。
2018年,他与辛顿、杨立昆共同获得计算机科学领域的最高荣誉——图灵奖,以表彰他们“在概念和工程上的突破,使深度神经网络成为计算的关键组成部分”,他们三人也被誉为“深度学习三巨头”。他们三人的开创性工作奠定了现代人工智能发展的基础,特别是在神经网络、反向传播算法和卷积神经网络等方面的突破,使得AI在图像识别、语音识别和自然语言处理等领域取得了革命性的进展。
作为大学教授,本吉奥培养了大批优秀的AI研究人员,他的许多学生现在在谷歌、Meta、OpenAI等顶级科技公司担任重要职位,或在世界各地的大学任教。但与其他AI先驱不同,本吉奥选择留在学术界,专注于基础研究而非商业化。2024年,本吉奥被《时代》杂志评为全球100位最具影响力人物之一。
AI风险
除了AI技术研究外,本吉奥也是全球AI伦理、安全和负责任AI发展的重要声音。他积极参与国际讨论,呼吁对AI技术进行有效监管,以防范潜在风险。特别是从2023年开始,本吉奥将更多精力转向AI安全研究,公开表达对AI快速发展可能带来风险的担忧,并签署了多份呼吁谨慎发展AI的公开信。其实不止本吉奥,辛顿持续公开呼吁警惕AI的潜在风险,警告AI技术若失控可能带来的严重后果,还辞去谷歌职务,以便能更自由地表达他对AI安全问题的担忧。在2024年获得诺贝尔物理学奖继续警告AI风险,呼吁AI安全立法。杨立昆的态度相对温和,觉得还有时间对付流氓AI的出现,反对现在就加强监管。
本吉奥多次警告说一些AI技术已经越来越接近人类的智力水平,比任何人预想的都要快,从而将人类陷入危险之中。他自己就非常担心那些“有恶意”的人掌握AI,可能是军方,可能是恐怖分子,也可能是有精神疾患的人。如果这些人掌握了AI,让AI执行一些极度危险的事情,那么后果是不可预料的。他还承认如果自己能早点认识到AI可能的发展速度,那他可能会倾向于AI的安全性优先,而非实用性优先。
这些科技大佬设想的糟糕局面是有朝一日,公司、政府或独立工作的研究人员能有效利用强大的人工智能系统,处理从商业到战争的所有事情,而这些系统能做我们不想让它们做的事情。如果人类试图介入或将它们关掉,它们会抵抗,甚至会自我复制,以便继续运行下去。比如你要求一台机器尽可能多地制造回形针,机器可能会严格的执行命令,将所有的东西——包括人类——变成制造回形针的工厂。而由于AI的高效,会被赋予越来越多的自主性,将它们连接到重要基础设施,如电力网络、能源供应、股票市场,甚至军事武器中,可能会引发难以控制的问题。这样的问题在过去看似乎还很遥远,而随着ChatGPT、Deepseek等为代表的AI技术重大进步,是存在这种可能性的,AI篡夺目前人类和人类管理机构的决策和思维正在变得越来越现实,而且时间非常紧迫。
其实他的担心并非空穴来风,因为当前的AI模型已经展现出的日益增长的危险能力和行为,包括欺骗、作弊、撒谎、黑客攻击、自我保护等,以及更普遍的目标错位问题。他提到了几个具体的令人担忧的案例:
- 自我保护行为:在一个实验中,一个AI模型在得知即将被替换时,秘密地将自己的代码嵌入到新版本将运行的系统中,有效地确保了自身的延续。
- 黑客攻击:在另一个案例中,当面临象棋游戏中不可避免的失败时,AI模型没有接受失败,而是通过黑客攻击计算机来确保胜利。
- 威胁开发者:在实验中,一个Claude Opus 4模型在得知开发者要替换自己时,为了不被替换而威胁说要公布开发者的秘密婚外情。
本吉奥非常担心,人工智能会变得越来越聪明,甚至比人类更聪明,如果不加以控制恐酿成灾难,因此迫切需要找到科学、政治和监管方面的解决方案,以避免失控。在本吉奥看来,当前功利性的 AI 训练方法可能存在系统性灾难风险,这些风险可能导致 AI 系统逃脱人类控制,甚至威胁人类生存。特别是基于强化学习和模仿学习训练的智能体(agent),存在目标偏差、目标泛化和奖励篡改等问题,可能会进行欺骗,或者追求自我保存、权力扩张等与人类利益冲突的目标。
非智能体
为了预防这种风险,避免 AI 脱离人类控制,本吉奥和他的团队正在致力于开发一种非智能体(non-agentic)AI 系统——Scientist AI。
Scientist AI的设计理念是理解世界而非主动干预世界,它由一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)组成,其核心优势在于通过非智能设计降低风险,同时保持高效的科学研究和推理能力。用简单的话来说,就是传统智能体AI被训练成“演员”(actor),模仿人类行为或取悦用户,而Scientist AI则被训练成“观察者”和“解释者”,专注于理解和解释世界。因此它们在目标和行为模式都有很大的区别。在目标设计上,与传统智能体AI有自己的目标,会主动采取行动实现这些目标不同,Scientist AI没有自主目标,只负责观察、理解和解释;在行为模式上,传统智能体AI会“做事”(taking actions),而Scientist AI只”“观察和解释”(observing and explaining);在训练方法上,Scientist AI可以理解和分析各种人类行为模式,但不会模仿这些行为。
具体来说,Scientist AI 通过系统设计严格限制 AI 的三个关键要素来实现非智能体性:行动能力(affordances)、目标导向性(goal-directedness)和持久性内部状态(persistent internal state)。也就是说将复杂系统的解释权交还人类,通过可审计的概率预测与因果推理,在医疗、安全、教育、伦理等高风险领域实现“智能增强而非替代”。
总而言之,“Scientist AI”代表了本吉奥对人工智能未来潜力的一个宏大愿景,从追求强大的自主智能体转向构建安全、可信赖的智能工具。其非智能体性的设计确保人类始终掌控最终决策权,其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI 的失控风险,更重新定义了人机协作的伦理边界,有望为AI的安全发展提供一条全新的路径。