
人工智能:突破口在哪里?——
徐扬生校长在深圳创投25周年大会上的主旨演讲
各位朋友早上好,今天非常高兴受邀到这里做演讲,首先祝贺深圳创投25周年,深圳创投对深圳的发展与创新立下了汗马功劳,了不起!我们大家都感谢深圳创投做出的巨大贡献。
我从事人工智能机器人方面的研究大概40年,今天想跟大家分享一下这方面的思考,求教于诸位。人工智能发展到今天,无论是大语言模型、机器视觉,自动驾驶汽车,似乎基本上都到了一个顶端,那么,下一个突破口到底在哪里?
最近这段时间,不少投资界的朋友,无论是国内的还是国外的,包括来自硅谷的,都到我家里来问我同一个问题:人工智能有没有泡沫?我给出的回答是:有,而且是巨大的。因为从价值(valuation)来看,如今几乎所有与人工智能相关的投资都是出于狂热。但是也不要太悲观,我给人工智能的泡沫下了一个定义——这是一个“真实的泡沫”。所谓“真实”,体现在几个关键点:
第一,人工智能的突破是根本性的。从美国的曼哈顿计划开始,到今天,可能还没有任何一项科学技术能像人工智能这样,取得如此巨大的突破,具有这么重大的影响力,这可能是人类历史上的第一次,注意,我说的是根本性突破!
第二,智能从现在开始成为了商品,生产力的潜力是巨大的,会渗透到各行各业,影响到千家万户,所有的行业都会发生变革,有着巨大的生产力提升空间。
第三,人工智能已经形成了产业。这一点其实非常了不起,回顾互联网早期的发展,产业化的过程并不顺利。而今天,人工智能已经形成了一个相当规模的产业体系。注意,形成产业后,事情是很难改变的,我是一辈子跟着产业走的,我喜欢给工业界做顾问,给很多著名企业都做过顾问。我的一个体会是:产业上来了以后,它会反过来引导你,甚至是不罢休的。举个例子,今天所有的工业都用到的齿轮,有一天如果我说不用齿轮了,这件事情是做不到的,为什么?因为齿轮已经形成了一个产业了,它有做齿轮的机器和产业在那里,这是一定会做下去的,不会罢休的。我们都知道渐开线齿轮不是最好的,我从学生时代就知道,到现在还改不了,因为产业已经形成了。人们都关注科技对产业的影响,我想提醒大家产业对科技的影响也是巨大的。
第四,国家的战略支撑,这是非常重要的。可以负责任地说:未来人工智能的竞争,就是中美两国之间的较量。去年这个时候,我还不能这么肯定地说这句话,现在可以说了,明年会更明显。这意味着什么?两个国家的情况跟几个国家的情况是不一样的,几个国家是讲竞争(competition),而两个国家是讲对峙(rival),一旦形成这种关系,就不会轻易停下来。
基于以上几点,我的分析是:人工智能是一个真实的泡沫,发展前景非常之大。
那么我们先回顾一下现实世界中的人工智能到底发展到了哪一步,我们现在在哪里?目前的人工智能大概在五个领域:一是语言模型,包括语音、文本,所有与语言有关的东西;二是Transformer架构,就是注意力的分布(attention-based),它加强了语言的功能,当然也有很多功能。
三是扩散模型;四是图像生成,图像这件事情已经做了很多年,但图像的生成这两年做得特别好;五是代码,代码是这几年开始的,我个人的判断是,到今年年底,自动生成上百行代码会非常普遍,代码生成会像语文课写作文造句一样,系统会自己衍生出来。至于其他方面的东西,有没有太大的本质性进步呢?我认为没有。
如果把这些现状放在一起看,人工智能今后应该往哪里走?首先,我们要从“语言”过渡到“非语言”,一定要从“语言”这个框里走出去。除人类以外,世界上有“智能”的东西,你去看看,比如说鸟、兔子、蛇,它们有语言吗?没有。
其次,要从“计算”到“非计算”,“非计算”指的不是“没有数字”,指的是除了“数据(data)”以外的东西,以及数据本身代表的“智能”程度。现在都是围绕着数据转。正是在这个从“语言”走向“非语言”、从“计算”走向“非计算”的过程中,产生了“具身智能”。
什么叫具身智能?就是基于物理的、身体的,通过感知及与周边的交互来进行学习和进化。比方说,你看到了我手在动,我的手是有感知的,是在与周边交互的,如果你们不在的话,我会这么动吗?这个过程就是具身智能。
具身智能的重点,首先是要有感知,没有感知是不行的,人都是有感知的,像眼、耳、鼻、舌、身等等。语言只是感知的一个特殊的方面。其次是要有交互,比如说我看到你们在听我的讲演,通过听、看、交流,形成一种互动。最后是要有学习,这是人工智能当中最根本的、不能忘记的三点。
讲到具身智能,现在很多人都认为是在讲人型机器人,我想与大家讲,这可能是误区。人型机器人是从90年代开始的,当时日本的科学家搞得很欢,但其他国家的大部分科学家并不太认同,为什么?因为人类创造机器人的目的,本来就不是要造一个“完全代替人类”的存在。所谓“机器人”,只是“像机器一样的人”或者“像人一样的机器”,你可以说它不是人,但它又多少带着一点人的特征。所以,人类造的机器人并不一定非得像个“人”,而只是具有人类(或非人类)的某些能力或特征的机器而已。
现在大家一窝蜂在做人型机器人,这其实不是唯一的路,我在硅谷还见过一家做“炒菜机器人”的创业公司:就是用一个机械臂拿着铲子在锅里翻炒。我当时看了只觉得很好笑——如果你只是想让机器炒菜,为什么非得给它一只“手”,再让它去拿一把“铲子”?我们完全可以直接让机器从底下把菜翻起来就好。人是因为做不到这样翻菜,才发明了铲子。所以,用机械臂握着铲子炒菜,其实挺傻的。真正要做具身智能,要把人工智能带入千家万户,需要另辟蹊径,不能只盯着人形机器人这一条路。人形机器人做出来,大家看了会很开心,去上春晚,相关部门也会很开心。这是可以的,但用不着所有人都去做人形机器人。
做人工智能的目的到底是什么?40年前我们做人工智能、做机器人,我们的初心是这样:首先,是为了让人远离危险。比如,当年我所在的地方有一家全球最大的核电站公司,核电站有故障,人是进不去的,因为太危险了,那能不能让机器人进去修理呢?因此,第一是避免危险;第二是去完成那些超越人类极限的事情。我们去到外太空,外太空环境可能是零下 250度,人类无法在那里生存,那机器人能不能去?这些都是“极限场景”的问题。另外,是为了摆脱重复劳动。我们为什么要造机器人、为什么要发展人工智能?就是为了让人从危险、极限、重复的工作中被解放出来,而不只是简单地“造一个人来代替人”。
那么,人类是不是这个世界上做各种工作或活动都最厉害的动物呢?其实并不是。比如,在平坦的路上,我们人类走一走还可以,但速度并不快,车就比我们快得多。我们也不会飞,人类想要飞行已经折腾了两千多年,但始终没能让自己飞起来。现在的飞机其实也不是“会飞的鸟”,比鸟差远了。鸟有两只会拍动的翅膀,飞机的机翼却动不了,只是做成一个类似鸟的形状,中间挖个洞,把人装进去而已。所以,在很多方面,人类其实并不如其他动物。
每天早上我都会在院子里散步,我很喜欢看鸟,观察它们是怎么飞的,而鸟的飞行方式和昆虫的飞行又完全不同;在海滩,我研究过螃蟹、龙虾,两者也有不同,它们适应不同的海滩环境,在沙滩上,人爬得再快也比不过螃蟹;森林里面你看松鼠,爬树爬得很好,我们做了很多“爬树机器人”,但是比松鼠还是差一点。我们能不能把自然界的其他动物的“智能”学出来?
现在稍微讲一下动态与静态,我个人其实更喜欢研究动态系统,不过今天时间有限,就不详细展开了。人类对“动态”这件事其实相对比较陌生,这也是具身智能的空白处,但动态本身有着非常有趣的智能。最简单的例子就是自行车。假设你从来没见过自行车,也不知道它是用来骑的,突然有人递给你一辆车,告诉你这个东西可以骑,你第一反应肯定是不相信:骑上去不是要摔倒吗?但事实恰好相反——骑得越快,越不容易倒。这就是典型的“动态系统的平衡”。朋友们,静态系统的智能和动态系统的智能,是完全不一样的。在我们实验室里,就有一些依靠动态平衡工作的机器人。
前面我们讲了那么多具身智能、动物的智能,还有动态与静态的智能,现在回到一个更根本的问题:人类最高层次的智能到底是什么?这个问题其实牵涉到教育的范式,也就是——我们究竟该如何教我们的孩子?在座的各位很多都有孩子,孩子在学校上学,如果老师跟你说:“你家孩子很聪明。” 那这个“聪明”到底指的是什么?按照我自己的研究结论,大概是:75%是记忆,20%是理性,5%是表达。我曾经分析过前五年的高考试卷,大致就是这么一个结构。里面几乎没有“感性”、“想象”、“直觉”,以及“创造”的内容。但恰恰在今天这个分享里,我要非常认真地说:人的最高智能,是直觉。我还是要强调:如果人工智能不往“直觉”这个层次走下去,我看这出戏即使唱得下去,也是不精彩的。为什么这么说?接下来我举两个简单的例子:
比如说打篮球。你去打球的时候,队友把球传过来,有些真正的高手,接球的一瞬间“啪”一下就出手投篮了。这个出手的决定是怎么做出来的?他会先算一算:前面防守的人有多高、阻力队员多少、投进的概率是多少,然后再决定要不要投吗?不会。这个过程不是理性的计算,也不是靠记忆,而是纯粹凭直觉完成的。所有高阶的东西,背后几乎都是直觉在起作用。
再举个例子。前两天有一位已经毕业的同学来我办公室跟我说她快结婚了。我说:那恭喜你啊。她说:恭喜什么,家里吵得很厉害。
我问为什么?她说她的妈妈不喜欢她的男朋友,她把男朋友带回家后,妈妈后来问她:“你说说看,这个男朋友到底好在哪里?”她自己也讲不清楚,只好说:“他个子很高啊。”
妈妈就说:“我上次给你介绍的那个男孩,个子也很高啊。”后来两个人来来回回说了很多,反正她妈妈就是不满意。
她最后问我:“校长,我妈妈说得对不对?”
我对她说:“你妈妈说的是对的。”
她脸一下就拉下来了,不说话了。我接着说:“但是,你选的男朋友也是对的。”
她马上就不理解了:“这不可能啊。如果我妈妈是对的,那我选的男朋友就是错的;如果我选的是对的,那我妈妈肯定就是错的。”
我说:“不是这样的。你妈妈说得 ‘对’,是指她是用理性、用逻辑在评判。而你在选男朋友的时候,是用直觉。你的直觉里当然也包含理性的成分,但不只限于理性,还有很多说不清道不明的东西。”
所以,朋友们,我们每个人在生活当中都会遇到以上这种类似情况:直觉在起决定性作用。这也是我为什么说,直觉其实是人类最高级别的智能。
“直觉” 这个说法未必是最准确的,英文里叫 intuition,或者 heuristics,里面其实包含了很强的 “经验” 成分。也正因为如此,我在学校里一直强调 “实践” 有多重要。在我看来,学习大致有四个阶段:学、思、践、悟。第一是 “学” ,中国学生这一点做得很好,都很勤奋;第二是 “思” ,也有不少同学在思考方面做得不错。第三是 “践” ,也就是亲身去做、去实践,这一环节在今天的教育里基本是缺失的。第四是 “悟” ,就更少见了——没有实践,光靠读书不可能产生真正的领悟。所以, “学–思–践–悟” 是一个完整的过程。在我们学校里,我一直强调:要有经验,要有感觉,要有理智,要有情感,这些东西要放在一起,才构成一种高维的智能。
那我们现在常说的“数据”是什么?本质上,数据是降维之后记录下来的结果。维度被压缩了,所以一定是不完整的。用这些数据去做一些相对简单的事情,在一定程度上是有效的,但问题也会随之而来:算力需求越来越高,能源需求越来越高。现在很多地方政府在讨论、争抢的焦点,就是“算力”。算力从哪里来、有什么用?
以围棋为例:假设你明天要和一位高手对弈,今晚要复盘一下,人复盘两三盘棋就已经很了不起了,AI一上来可以帮你复盘十盘。你会觉得:十盘当然比三盘好。如果是一百盘呢?那似乎更好;一千盘呢?好像更好了。照这个思路推下去,一万盘、十万盘是不是就更好?但如果你真正下过棋,你会在某个点上打断这个逻辑——因为人知道什么时候该停,什么时间已经是够了,机器却不知道在哪里停,这就是当下人工智能的一个根本问题,就是数据到底是否反映了真正的智能。
而对“降维后的数字”,我们必须保持警惕:哪怕有最多的数据、最强的算力,它们这些数字所代表的“智能”,是否是全域性的、是可靠的,这是一个大问号。换句话说,如果你向一群非常“笨”的人学习——不管你学得多快、多好,这有意义吗?我说得再不客气一点,假如这群人本身就不可信,甚至全是在说谎,那你越认真向他们学习,结果会怎样?同样的道理:在这样的前提下,你数据越多、算力越强、学习越快,越可能是毫无意义的。
回顾历史,世界上发生过的最重要的事件,起决定性作用的是什么?我个人比较喜欢看一些传记、历史书籍,从一个又一个案例里,你会发现:很多关键时刻,尤其是在战争这类重大事件中,真正决定走向的,是领导的判断力。那这种判断力从哪里来?更多时候是来自直觉,而不是纯粹的理性。回到现代教育和社会,对“理性”的强调已经到了有点“非理性”的程度了。所以有时候,孩子如果考试没考好,不要骂他,他无非是在某些“理性”指标上表现一般而已,但在别的方面,可能非常出色。理性当然重要,但远远没有我们今天想象得那么重要。
所以,回到人工智能本身:直觉是具身智能的下一个突破口。只有通过具身智能才可以达到直觉,只靠语言很难真正做到。想想我们人与人之间是怎么交流的。你们在座很多是领导,可以今天就做一个小实验:比如,你要跟一位员工谈话,告诉他今年经济不太好,年终奖可能要低一点,大概会是多少。你认真跟他聊个十五分钟,然后观察一下对方的反应。我的问题是:对方的反应有多少是基于你说的“内容”。统计的结果大约为30%,而剩下70%,跟“内容”无关。你甚至可以再进一步验证:用同样的措辞、同样的数字,让另一个人去跟同一个员工讲一遍,你会发现效果完全不一样。那么,这70%是什么?就是我今天反复强调的那部分:直觉。你的态度、手势、语气、眼神、笑容,以及你们之间既有的关系基础,都影响了沟通的结果——它们都在我们今天所说的直觉里。
前面讲了很多关于“直觉”和“具身智能”的讨论,我今天想要真正分享的一个核心理念是:真正颠覆性的创新,永远无法用过去的数据推算出来,创新是来自于高维的直觉,这也是具身智能的挑战所在。
总结一下,人工智能的突破口在具身智能,具身智能的突破口在基于直觉的智能框架,如果这两件事情做好了,人工智能就能所向无敌。讲到这里,我想引用日本作家村上春树的一段话,我特地把它放在了这一页的 PPT 上:每个人都有属于自己的一片森林,也许我们从来不曾去过,但它一直在那里,总会在那里。我们都在人生的密林里独行,在交错的小径上寻找属于自己的方向,那里有阳光——斑驳的温暖,也有月光——清冷的寂静。
我为什么要写这段话?其实没有什么目的,我只是想告诉大家:这个PPT不是人工智能做的,人工智能做PPT的话是绝对不会有这一页出现的。把这段话写在PPT里其实也是我的一种直觉。
要强调直觉,强调人,强调心,要把人还给时代,把心还给人。我们这个时代,把注意力都放在机器上了:机器视觉、机器智能、机器人、机器翻译……所以机器越来越像人,人越来越像机器。同时,要把心还给人,我们的心已经被手机拿走了,我们的灵魂已经在手机那里了。而人工智能的未来,应该在强调人性的基础上来进行研究,这样,才不至于迷路。
谢谢各位!
① 凡本站注明“稿件来源:教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:教育在线”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。




教育在线

