接任汤晓鸥！周伯文以上海AI Lab主任身份WAIC演讲：探索AI-45° Law

衡宇 2024-07-04 14:48:39 来源：量子位

沿着可信AGI的“因果之梯”拾级而上

衡宇发自凹非寺

量子位 | 公众号 QbitAI

就在刚刚，清华教授周伯文以全新身份，在WAIC 2024全体会议上发表演讲——

上海人工智能实验室主任、首席科学家。

在演讲中，他提出一个技术主张：探索人工智能45°平衡律（AI-45° Law）。

即从长期的角度来看，需要找到AI安全优先，但又能保证AI性能长期发展的技术体系。

周伯文在发言中提到，沿着这个思路，上海AI实验室最近正在探索一条以因果为核心的路径，取名为“可信AGI‘因果之梯’”。

可信AGI的“因果之梯”将可信AGI的发展分为三个递进阶段:

泛对齐
可干预
能反思

周伯文表示，要沿着可信AGI的“因果之梯”拾级而上：

目前，AI安全和性能技术发展主要停留第一阶段，部分在尝试第二阶段，但要真正实现AI的安全与性能平衡，我们必须完善第二阶段并勇于攀登第三阶段。

接任汤晓鸥！周伯文以上海AI Lab主任身份WAIC演讲：探索AI-45° Law

2021年，周伯文离开工作4年的京东，投身AI创业，成立大模型公司衔远科技，聚焦电商领域的生成式AI落地。

今年4、5月份前后，消息传出，衔远科技创始人周伯文，已经不再主持公司事务，另有去处。

终于，WAIC 2024上，周伯文的新身份水落石出，接任去年12月中因病去世的汤晓鸥先生，主持上海人工智能实验室事务。

他履新后正带领上海AI实验室的方向，也在首次亮相发言中对外传递。

（附周伯文在WAIC 2024全体会议上的演讲全文）

周伯文履历

周伯文，上海人工智能实验室主任、首席科学家，清华大学惠妍讲席教授，衔远科技创始人。

他是自注意力融合多头机制的自然语言表征机理的提出者，这是Transformer架构的核心思想之一。

他本科就读于中国科学技术大学少年班，在中科院获得硕士学位，后留学美国。

研究方向包括语音和自然语言处理、多模态与知识表征、理解、生成、推理、人机对话、可信赖AI等。

学成后，周伯文曾就职于IBM，负责人工智能和深度学习基础研究方面的工作。

2017年，周伯文回国加入京东，成为京东首任AI掌门人，历任京东集团高级副总裁、京东集团技术委员会主席、京东云与AI总裁、京东人工智能研究院创始院长。

负责的业务，包括京东的整体技术，以及云计算、人工智能、物联网、大数据等技术商业化。

他被视为“京东AI开创者”，亲手从零一手组建了最初约400人的团队。

包括何晓冬（现任京东探索研究院院长）、梅涛（曾任京东集团副总裁，京东探索研究院副院长；现创业文生视频公司HiDream.ai）在内的京东系AI大牛，都由周伯文引入。

2021年底，周伯文从京东离职，创立衔远科技。

目标聚焦在生成式AI的产业应用落地，主要是电商领域。

2022年5月30日，清华大学电子工程系宣布，清华大学聘任周伯文博士为电子工程系长聘教授、清华大学惠妍讲席教授。

2024年4月，消息传出，周伯文不再主事衔远科技，另有任用。

2024年7月，周伯文以上海人工智能实验室主任、首席科学家身份亮相上海WAIC，并发表演讲。

周伯文WAIC发言全文

尊敬的各位领导，各位嘉宾，大家上午好，非常荣幸在WAIC大会上、在上海，与大家分享人工智能安全的前沿技术话题，我想提出一个技术主张：探索人工智能45°平衡律——Towards AI-45°Law。

当前，以大模型为代表的生成式人工智能快速发展，但随着能力的不断提升，模型自身及其应用也带来了一系列潜在风险的顾虑。

从公众对AI风险的关注程度来看，首先是数据泄露、滥用、隐私及版权相关的内容风险；其次是恶意使用带来伪造、虚假信息等相关的使用风险；当然也诱发了偏见歧视等伦理相关问题；此外还有人担心：人工智能是否会对就业结构等社会系统性问题带来挑战。在一系列关于人工智能的科幻电影中，甚至出现了AI失控、人类丧失自主权等设定。

这些由AI带来的风险已初露端倪，但更多的是潜在风险，防范这些风险需要各界共同努力，需要科学社区做出更多贡献。

去年5月，国际上数百名AI科学家和公众人物共同签署了一份公开信《Statement of AI Risk》，表达了对AI风险的担忧，并呼吁，应该像对待流行病和核战争等其他大规模的风险一样，把防范人工智能带来的风险作为全球优先事项。

出现对这些风险担忧，根本原因是我们目前的AI发展是失衡的。

先让我们来看一下目前的AI发展趋势：在Transformer为代表的基础模型架构下，加以（大数据-大参数量与大计算）的尺度定律（Scaling Law），目前AI性能呈指数级增长。与此形成对比的是，在AI安全维度典型的技术，如：红队测试、安全标识、安全护栏与评估测量等，呈现零散化、碎片化，且后置性的特性。

最近的一些对齐技术兼顾了性能和安全性。比如：监督式微调SFT、人类反馈的强化学习RLHF等技术，RLAIF、SuperAlignment等。这些方法帮助将人类的偏好传递给AI，助推涌现出了ChatGPT、GPT-4等令人兴奋的AI系统，以及我们上海AI实验室的书生Intern大模型等等。虽然瞄准的是安全和性能同时提升，但这些方法在实际使用中往往还是性能优先。

所以总体上，我们在AI模型安全能力方面的提升，还远远落后于性能的提升，这种失衡导致AI的发展是跛脚的，我们称之为Crippled AI。

不均衡的背后是二者投入上的巨大差异。如果对比一下，从研究是否体系化，以及人才密集度、商业驱动力、算力的投入度等方面来看，安全方面的投入是远远落后于AI能力的。

李强总理刚才提出“智能向善”。AI要确保可控，统筹发展与安全。毫无疑问地，我们要避免这样的Crippled AI发展，我们应该追求的是：TrustWorthy AGI，可信的AI，可信的通用人工智能。

可信AGI需要能够兼顾安全与性能，我们需要找到AI安全优先，但又能保证AI性能长期发展的技术体系。我们把这样一种技术思想体系叫做“AI-45°平衡律” （AI-45° Law）。

AI-45°平衡律是指从长期的角度来看，我们要大体上沿着45度安全与性能平衡发展，平衡是指短期可以有波动，但不能长期低于45°（如同现在），也不能长期高于45度（这将阻碍发展与产业应用）。这个技术思想体系要求强技术驱动、全流程优化、多主体参与以及敏捷治理。

实现AI-45°平衡律也许有多种技术路径。我们上海AI实验室最近在探索一条以因果为核心的路径，我们把它取名为：可信AGI的“因果之梯”，致敬因果推理领域的先驱——图灵奖得主Judea Pearl。

可信AGI的“因果之梯”将可信AGI的发展分为三个递进阶段：泛对齐、可干预、能反思。

“泛对齐”主要包含当前最前沿的人类偏好对齐技术。但需要注意的是，这些安全对齐技术仅依赖统计相关性而忽视真正的因果关系，可能导致错误推理和潜在危险。一个典型的例子是巴甫洛夫的狗：当狗仅仅基于铃声和食物的统计相关性形成条件反射时，它可能在任何听到铃声的场合都触发行为分泌唾液——如果这些行为涉及到……时这显然是不安全的。

“可干预”主要包含通过对AI系统进行干预，探究其因果机制的安全技术，例如人在回路、机械可解释性，以及我们提出的对抗演练等，它以通过提高可解释性和泛化性来提升安全性，同时也能提升AI能力。

“能反思”则要求AI系统不仅追求高效执行任务，还能审视自身行为的影响和潜在风险，从而在追求性能的同时，确保安全和道德边界不被突破。这个阶段的技术，包括基于价值的训练、因果可解释性、反事实推理等。

目前，AI安全和性能技术发展主要停留第一阶段，部分在尝试第二阶段，但要真正实现AI的安全与性能平衡，我们必须完善第二阶段并勇于攀登第三阶段。沿着可信AGI的“因果之梯”拾级而上，我们相信可以构建真正可信AGI，实现人工智能的安全与卓越性能的完美平衡。

最终，像安全可控的核聚变技术为全人类带来清洁、丰富的能源一样，我们希望通过深入理解AI的内在机理和因果过程，从而安全且有效地开发和使用这项革命性技术。

也正如可控核聚变对全人类都是共同利益一样，我们坚信AI的安全也是全球性的公共福祉，陈吉宁书记刚刚在发布的《人工智能全球治理上海宣言》中提到“要推动各国加强交流和对话”，我们愿与大家一起携手推进AI-45°平衡律的发展，共享AI安全技术、加强全球AI安全人才交流与合作，平衡AI安全与能力的投入，共同构建开放、安全的通用人工智能创新生态和人才发展环境。

谢谢大家！

上海AI Lab 周伯文清华

衡宇

接任汤晓鸥！周伯文以上海AI Lab主任身份WAIC演讲：探索AI-45° Law

周伯文履历

周伯文WAIC发言全文

相关阅读

上海AI实验室版o1已上线！数学题、Leetcode全拿下，还会玩24点

5.28亿融资砸向杭州具身智能公司，清华叉院机器人天才坐镇

AI玩推理桌游一眼识破骗局！清华通院联合推出心智理论新框架，6个指标评估表现均明显优于思维链

清华伯克利造出机械小强：承重200万倍踩不死，跑得和真蟑螂一样快

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

马斯克失去世界首富头衔/ 清华孙茂松当选ACL Fellow/ VR头显可隔空接吻…今日更多新鲜事在此

热门文章

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

智能车速度刷新：仅10个月，首个纯端侧大模型上车量产！

一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

百度阮瑜：大模型应用落地正从简单高容错向复杂低容错场景延伸｜中国AIGC产业峰会

电视装了智能体，只凭台词就能找到剧集了