“这不是我们能够长期忍受的现象”,姚期智立下新目标
院士鄂维南:当前人工智能技术路线不可持续,中国研究者要跳出主流框架
7月4日下午,在2024年世界人工智能大会第一财经的演播室,有一场主题为“人形机器人与具身智能的发展”的对话,傅利叶智能董事长兼CEO顾捷与北京大学助理教授、北大-银河通用聚身智能联合实验室主任王鹤,以及上海交通大学人工智能学院教授、穹彻智能联合创始人卢策吾参与对话。总书记视察的上海机器人公司,有这样几个显眼之处
顾捷表示,人形计算机是一个新的产业革命的开始,它会成为新一代的计算单元和新一代的操作系统。并且,这一领域会出现类似于安卓、IOS的情形。
他认为,人形机器人**有可能不会像自动驾驶那样,从开始搞到真正端到端的落地需要10年的时间,但是“也需要有三五年以上的时间”。
在他看来,当成本下降,跟智商的提高,这两个曲线形成交汇点时,就是人形机器人开始可以大量普及的时候,这是已经能够看得到时间点的事情。
他认为,人形机器人的商业化更大程度上决定于它能不能做出一些通用性,“只要这个任务能够开始做一些通用性了,商业化的速度就会很快”。
人形机器人是新的产业革命
人形机器人产业为什么引发产业界、资本界如此高的关注,也在于这一产业让大家看到了一些确定性和想象空间,所以需要找到好的运用、好的技术、好的场景、好的企业,包括好的科学家和创业者。
顾捷表示,现在人形机器人行业,在全球范围内已经达到了一个非常高的热度。为什么会有这个热度?最大的原因是,它是一个新的产业革命的开始。
对这个产业革命怎么理解?顾捷说,大家最早用的操作系统,电脑端是Windows,手机端跑的是安卓、iOS。到了大模型时代,大模型其实不是一个APP,大模型是下一代的操作系统,这个操作系统会运行在一个会走路的手机上,或者说这个大模型会走路,它大概率的构型是一个人形机器人。而且,我们看到在美国、在欧洲、在中国,大量的人形机器人的形态,已经开始收敛了,认为最终的形态就是个人形,可能高矮胖瘦的具体样子可能会不一样。它会成为新一代的计算单元,跟新一代的操作系统。
从这个角度来说,他表示,以前我们做的是各种各样的应用程序、APP,人形机器人的未来,可能会运用到不同的垂直类的一些模型,就是它的APP。
最大变化和何以还不能像人类一样思考?
人形机器人发展到当下最大的变化是什么?
顾捷认为,我们原来发现人类是有推理能力的,机器的推理能力不太具备,但是人工智能大模型的出现,我们看到人形机器人这么复杂的结构能够去完成未来的一些通用任务了,而且交互方式也产生了巨大的变化。
他表示,以前我们在电脑上用的是鼠标跟键盘,后来产生触屏,手机开始火了,现在人形机器人,你跟他对话就可以了。对话,形成了新的交互方式。每一个交互方式,会形成一个新的大的产业升级。
主持人提问,人形机器人所干的,听上去都是体力活,是不是能有一些脑力活儿?人类的目标既想去模仿和复刻人类的智能,但它毕竟又不是人类。为什么在目前阶段它还不能够像人类一样去敏捷的思考?或者说从感知的层面到认知的层面到决策的层面,还有哪些差距导致它不能够像我们人类一样?
顾捷表示,首先,人体机器人,如果类比于人的话,它分为身体跟大脑。身体呢,我们强调它的运动能力、灵活性,体力要好,身体要棒,就像我们小时候运动会要跑第一。现在,我们看到人形机器人的运动能力已经急剧地提升,当然跟正常的人类还有一定的距离,但是已经看到曙光了。
10年前、20年前,人形机器人都是液压的驱动,很难去量产,因为电动车,因为大量的产业的升级之后,人形机器人的运动能力能够提升。
第二,最早所有的编程都是固定的程序。你叫机器人干什么,它会干什么,现在通过神经网络,让它自己学会干事情。学会这件事情,我们也看到了曙光。
但是为什么机器人还没有办法进到家里面去做菜呢?为什么没办法做家务呢?我们的数据量还不够,我们这个人形机器的整个制造的数量还不够,还没有大量的场景,这个是有点像“鸡生蛋、蛋生鸡”的逻辑。
人形机器人发展时间表
无需像自动驾驶花上10年?
有没有一个时间表可供推测?顾捷表示,从刚开始搞自动驾驶的时候,到今天真正端到端的自动驾驶的车能够上路,整整花了10年的时间,而且,它是因为有大量的汽车、大量的道路的数据,才能够训练出自动的驾驶。
如果从今天开始,人形机器人产业要大发展,也需要有大量的机器人,能够铺到世界各地的各个角落,人们开始逐渐去运行它。“它有可能不会像自动驾驶那样花上10年的时间,但是也需要有三五年以上的时间。但凡起飞起来,它的速度是可能超越我们的想象的。”
不过,王鹤认为,人形机器人,最终要做的事情是我们人类的全部的体力活儿,但它跟自动驾驶不一样,自动驾驶只是开车这一件事儿,它只要把车完全开好了,才能够实现真正的无人驾驶,但是,人形机器人从帮你干一点事情,到帮你在一个场景里解决整个夜间值班的需求,到最后能进家里帮你干家里的所有事情,它是一步步发展的。
所以,他的看法是,“大家不要对技术短期能够带来生活巨大的变化给予过高的期待,同时,不要低估技术长期发展能够带来的巨大变化。”
他认为,从未来的一两年到三五年到十年,人形机器人是逐步地从场景慢慢地渗透到越来越多的千行百业,甚至最后帮助千家百户,这个过程确实是需要时间的,它不像自动驾驶一样,要一条路走到底才能成。
卢策吾认为,人类做几千几万种任务,最后都会回归到几种技能,比如抓、推、抹等,这有点类似于小孩子刚生下会的动作。就人形机器人而言,整个领域的发展,是一批一批的技能做到通用泛化,它会先在一些行业里使用起来,先做一个行业的变革,积累到一定多的技能和泛化性的时候,就会进到家里。
说到时间点,他认为,在三五年肯定能看到一些surprise。“芯片有摩尔定律,我觉得具身智能有一个具身哇塞定律,或者说具身惊讶定律,就是每过1.5年所取得的进展,会让人很惊讶。”
未来突破的关键点在哪里?
人形机器人是世界上智能装备最高的技术集合。主持人提问,它的血脉、细胞、神经、能量怎么样和钢铁、电子、生物、材料这些前沿科技相融合,从而构建起更加智能化、高端化的人性机器人?未来突破的关键点在哪里?
王鹤认为,具身多模态大模型会是未来突破的一个很关键的技术,就是最终的机器人,会像人类一样拥有一个大小脑连动的系统来支配身体,大脑负责感知和决策,小脑负责身体的控制和任务的执行,最终,这样一套由大小脑和本体组成的系统,能够像人一样去通用的干活、感知和决策。
顾捷认为,机器人的核心有三块,从感知到思考再到执行。感知就像我们人的眼睛、皮肤一样,要有大量的核心零部件的突破;认知,包括小脑大脑;执行,就是人形机器人要像肌肉一样,最后要完成一个动作。未来机器人要在这三块上突飞猛进去迭代。
思考的本质就像人类的大脑一样,现在就是大模型跟神经网络在做的事情。它是一个黑匣子,你给他的出入,他就会有输出。它看见了一个好东西,就会去拿。
人形机器人一定要做成人形?
卢策吾认为,从终局来讲是不是需要做成人形,最后是技术和商业迭代的结果。哪个成本最低,技术最可行,组装起来能做某个场景,最终由商业决定。
王鹤表示,我们做的是一个轮式底盘,把两条腿并在一起,可以跪在这个轮子上来抓地面的东西,也能站起来到1.8米这么高,它需要跟人一样拥有相同的活动空间,往里取东西也可以前伸几十厘米。传统的机器人就一根机械臂,定在原地,它显然是不能左右移动,同时它的工作极其受限。
为什么不做两条双腿?技术上还有很多挑战,成本上也有一些挑战。我的看法是,技术上,要允许这个身体能够像人一样灵活;成本上,场景要能接受,最后,我们再按照 product market fit,也即PMF去引导怎么样迭代身体和技术,推动市场。
人形机器人领域会出现安卓和IOS
顾捷表示,把大模型变成一个操作系统来类比的话,假设是个安卓的操作系统,它既可以装在手机上,也可以装在汽车上,它可以适配各种各样的硬件。如果大模型做得足够通用化,无论是双足的,还是轮足的,还是其它不同形态机器人,都可以去用。
如果这个本体做的更加好,更加灵活,更加好用,更加精致,更加能够量产,更加有性价比,这个时候大家都会选择这个本体。如果说这个操作系统足够强大,那它应该可能会适配到各种各样的机器人上。
但是也可能会产生另外一种情况,就像Apple,它的IOS跟手机是完美地配合在一起,它能够达到一个更好的市场需求的满足。这两种情况都会出现。
要做专才,还是通才,大家有共识
卢策吾表示,我们的终极目标是希望做通才,但要从专才起步。从技术和商业的角度来讲,这也是更加合理的一个路线。
王鹤则从另外一个视角谈到为什么要先做专再做通,那就是人形机器人训练所需的动作数据,极其缺乏。互联网上的图片、视频,并不能告诉人形机器人的这只手现在应该移动到什么位置,这个手指用什么形式去把这个物体抓起来。这些数据,必须需要在仿真环境里去造,或者在真实场景里去采。
这样,“最好是从专的事情开始做起,让他把这个技能完全学会了,在场景里完成商业闭环,把这个利润挣回来了,我们再进一步地去推广它的应用场景,否则上来就让人形机器人所有事情都要干,得把全世界所有活儿的数据都采一遍,才能让它跑起来,这是非常难,也不太现实。”他说。
顾捷表示,绝大部分做人形的工程师,他们的梦想一定是做出通用的机器人,但是无论是现在的技术水准,还是目前的市场需求来说,一定是从专才开始做起的,就像傅利叶刚开始从康复机器人开始做起,满足的就是一些康复、护理的需求。人形机器人也是一样的,它会从一些很细分的领域开始切入,就像手机刚刚发明出来的时候,它就是一个功能机,诺基亚的功能机只能打电话,但是iPhone出来的时候,你发现可以,现在照相机也不用了,手电筒也不用了,它就变成一个通用的终端了,所以人形机器人也会是这个样子。
公司最受欢迎的机器人种类是什么?顾捷表示,现在公司在市场上真正销售量最大的,还是康复类的机器人。“人形机器人这个事情是刚刚开始,这个产业是刚刚开始,但是,它现在可能是零,但它可能会变成万亿级的市场,它是一个跃变的市场。当它的智商,当它的身体每上一个台阶,不是说到最终那个台阶,比如说能够做很好的一些对话的能力,做很好的运动能力的时候,它的市场一下子就能够扩大。”
赛道不是问题,信心源自落地
王鹤表示,我们现在跟投资人讲,这个赛道很重要,这个并不是问题,这已是大家的共识。我们需要让这个市场真正有信心的是,我们一定要展示机器人,真的在场景里开始做点事情了,我们正在从PPT时代,进入到真机现场演练的时代,再到产品的时代,一步步地在有序推进,让投资人、让市场对这项技术真正落地和走向千行百业、千家万户,是持有信心的。
王鹤认为,人形机器人从外观来讲,就是希望能够跟人拥有相同的运动能力,最终人能干的所有体力活,他全部都能干,但是,从产业的角度上讲,它一定得有突破口,先从一定的比较强的需求,落地,然后再慢慢把能力扩展到跟人一样,做跟人相同的事情,所以他的看法就是,先从需要反复但是相对比较简单的事情做起。这些事情,从算法的角度上讲,要求也相对低一点。
但是,由于机器人需要处理的问题变来变去,比如给超市上货这个问题,或者是外卖员到了,能不能有人形机器人从货架上把商品、药品拿下来交给快递员。看似很简单,但是它要接触的是整个药店、商店里几千种不同的商品,这点很复杂,但是仅就“拿”这个动作而言,又是一个很简单的技能。
所以,从银河通用的角度来看,人形机器人落地的一条非常可行的途径就是,率先解决需要泛化,需要处理的各种各样的任务、技能,又不是很复杂的场景。“零售,还有工厂里的一些搬运、取料的场景,我们都比较看好”。
商业路径怎样打通?
大家讨论人形机器人,要它智商高,会做任务,还要买得起,这就涉及成本问题。顾捷表示,当人形机器人的成本下降,跟智商的提高,这两个曲线有个交汇点时,就是开始可以大量普及的时候。
“我们已经看到了这个东西的希望,因为在10年前、20年前做人形机器人的时候,做一台液压机器人成本可能要上千万,但现在,电动普及之后,人形机器人已经降到百万,可能未来,10万、20万这种金额,已经是能够看得到有时间点的一件事情。在这个情况下,人形机器人会逐渐能够买得起。”他说。
另外,他认为,人形机器人的商业化更大程度上决定于它能不能做出一些通用性,“只要这个任务能够开始做一些通用性了,商业化的速度就会很快”。
他举了个例子,现在在不用做任何动作的情况下,只要人形机器人能够稳定地到处走来走去,其实已经能够在一些危险的地方,帮助人类去做一些巡检、巡逻、安防的工作。如果它再能够开个门,关个灯,这个时候它已经在很多程度上帮助我们做一些工作。如果它能够再跟人做一些很好的交互,养老陪护就完全可以看得到了。
整理编辑:天一君
网友评论