福田敏男:各位早上好,欢迎来到我们的第二天会议,我们是第三单元机智启新—世界机器人技术趋势论坛,今天我们的发言嘉宾来自不同的背景,有医学和其他的一些机器人的专业领域,那我们接下来邀请第一位发言嘉宾中国科学院院士张旭教授,他本人也是一位非常有经验的外科医生,来自解放军总医院,泌尿外科医学部主任,下面请跟我一起欢迎张旭教授来发言。
张旭:尊敬的各位同道,各位来宾,大家好!女士们、先生们,世界各地的朋友们,大家上午好!我是张旭医生,来自解总医院,我是一名泌尿外科医生,今天想要跟大家分享的是远程外科的301的初步研究结果。
从这张图片大家可以看到,这是两千多年前中国有很多很多传奇的外科故事,左边是关公刮骨疗毒,右边是华佗给曹操做开颅手术,这都是古老的中国外科传说,但是真正的外科来自于西方,我们叫西医,只有两百多年的历史,可见当初的外科是非常粗暴、残酷的,大家看到木工的工具、泥瓦匠的工具都是外科的工具,所以说在历史上曾经有过这样一个故事,罗伯特·李斯特教授创造24秒钟完成一个截肢手术,同时他也创造了300%的死亡率,他一刀下去患者最后败血症死掉,他的助手手受伤以后也败血症死亡掉,同时在场一位参观的人员也败血症死亡了,30%的死亡率。正是因为有无数的改革创新,特别是麻醉术、无菌术、解剖术、抗生素、输血术的引入,使得外科成为一个安全可靠的外科技术,每一次技术进步都是靠我们的科技创新、科技发展来进一步推动。
我们现在这二三十年正经历着另外一场巨大的革命,也就是说从传统的粗犷的巨创的开放手术,逐渐转化为以以腹腔镜和机器人为代表的微创技术来取代,这张照片正好是二三十年来我们外科发展的一个缩影。现在机器人已经成为我们当前主流的外科模式,比如美国现在有五千多台腔镜机器人,已经成为常态化,在中国虽然只有三百多台腔镜机器人,但是在大型中心城市、大医院也成为主流的外科技术取代腹腔镜,但是我们会看到机器人它并不是机器人,它是叫机械臂辅助腹腔镜,它没有人机交流,所以这个不叫机器人,命名是错误的,但是它是一个很好的平台,正是有这个平台,我们可以和很多现代的技术相结合,比如和人工智能结合,称为智能外科,我们和通讯技术结合、5G技术结合,我们可以称为远程外科等等等等,它是非常好的平台。
我是一个外科医生已经四十多年时间,实际上外科近期的发展方向应该有两个,一个就是远程外科,我们可以通过人机交换、机器人学习,大大的提高外科的精准度、准确度,减少学习曲线,同时可以基于远程外科,可以把优质的医疗资源、医疗技术投射到边远地区、离岛、太空,特别是在中国这样一个巨大的城市,发展不平衡的城市,我们可以把这些优质医疗资源投到远方。远程外科最早也是美国军方一个军医提出来的,他首先提出来进行各种远程外科的模式,甚至通过互联网、光纤、卫星来传导,并且做了一系列相关的研究。事实上在美国这项技术也是起步比较早,早在2001年美国一个纽约的医生就完成了跨大西洋的远程手术,给在法国斯特拉斯堡医生完成胆囊手术,当时也是中国海底光纤系统做手术,这个手术名字叫林德柏格手术,也是第一个跨大西洋不停留的飞行员的名字,我们要完成远程外科手术需要三个环节,第一个是患者手术端,第二个是医生控制端,我们要通过各种基础完成非物理连接的远程控制,这就是我们现在需要解决的问题。
我们国家很早以前也在尝试做远程外科手术,十多年前做北京跨海峡的三峡的远程外科手术,因为各种原因我们停顿下来,但是这些年来大家看到中国的机器人企业、机器人技术飞速发展,腔镜技术人有精锋机器人、微创机器人、山东威高机器人,这些机器人的出现能够完成各种复杂高难度的外科手术,也为我们进行远程外科手术提供了非常好的平台,中国医生能够起步完成远程外科手术一系列的研究。
大家看到早期在西方,在美国都完成一系列的远程外科手术,但他们现在做的不多,正是因为国内的机器人推出以后,国内远程外科的尝试越来越多,这是远程外科报道的一些工作,等会儿跟大家分享一下动物的实验。
我们要完成远程外科有很多很多技术需要解决,首先远程外科不可能完成一个专用的光纤,我们需要一个非物理的网络来控制远程,这个非物理网络它的稳定性最重要的,大家知道远程外科几千公里之外是一条生命,要做到绝对安全。第二数据传输的延迟和丢包的问题,外科手术要实时手术,如果有延时,比如一个出血,一个意外情况,可能是很长一段时间以后的,再处理过去,可能就失去了机会,这是有生命危险的。丢包问题,数据包可能丢掉,这个数据包包括很多很多控制信息,比如说电凝还是切开,缝合还是关闭,它的信息包是不一样的,信息包丢失会失去很多的控制信息,还有手术机器人远程的修改,更多是医学伦理问题,还有医学经济学的问题,一系列问题都是需要我们来认真考虑,来改进的。
所以针对这些问题我们医院这些年来对远程外科和人工智能外科也做了大量的工作,我们针对远程外科问题设计了北京到三亚、北京到深圳的远程外科手术一些工作,这是我们的场景,比如说左边是在北京的现场图像,右边是在三亚的一些工作图像,三千公里跨海峡的一个动物实验。
我们针对这些问题需要解决很多相关的技术,当然重点是两边的数据传输,包括数据的压缩、解压和避免延迟的工作,这是我们的示意图。
首先要解决延迟的问题,第一个网络延迟,第二个是数据包的压缩和解压过程,大家知道大型卡车在高速公路上行驶肯定开不快,但是压缩到一个摩托车、小汽车,就可以在高速公路上畅通无阻,把数据包压缩到最低程度,能够最快的进行传输,这是我们需要解决的问题。
所以说要解决延迟有几个方面,第一个要解决远程通讯1+1或1+N的冗余备份问题,当一条通路有问题的时候,可以备份通讯来进行传输,带宽有问题,遇到传输弱网的情况下,我们怎样智能化的,能够调整数据流量,来减少延迟,所以我们通过实时的优化数据压缩解压策略,特别是图像压缩的问题,来尽量减少延迟的发生。这是我们做动物手术远程手术的基本情况,我们现在通过专线,网络单向延时是在25个毫秒左右,整体延迟,看到图像发出指令压缩到解压,实施指令,就图像传送回来整体延迟是170个毫秒左右,延时的抖动只有3到4个毫秒左右的稳定区间,我们也丢帧,每台手术只有4到5个丢帧,丢帧是非常小、非常低的水平。
针对这些问题,我们主要是动物实验,3个月完成12种手术,共102例手术,包括肾部分切除、肠吻合,还有简单的肾脏切除等等,当然在泌尿外科做远程外科是非常复杂的手术。首先解决网络延时对远程手术的影响,我们通过软件把延迟固定在独特的时段,第一170个毫秒是我们一个标准的延迟时间,大家看到远程外科在两三千公里以外画面非常清晰,操作非常精准,感觉不到任何延迟的情况,这跟现场用达芬奇手术一样的感觉,我们通过软件设计到220个毫秒左右的延时,大家看我操作起来,这相当于我自己用慢档的手术的感觉,也可以说基本没有什么延时的感觉,慢档1比3的慢速手术,很多医生喜欢用最慢档,他们觉得差不多,也是图像很清晰,操作没有什么特别的感觉。当我们把延迟设计到270毫秒的时候,可以感觉到有明显的延迟,但是操作起来还比较流畅,我们再把延迟放到320个毫秒左右的时候,大家看到有明显的延迟的感觉,但是我们依然能够安全的完成这个手术,这是延迟的一种极限,如果再延迟可能就完成不了,所以170毫秒是一个非常合理的空间。
我们再看带宽的影响,这是截图,15兆以上带宽非常清晰,10到15兆带宽似乎有点模糊,但是两者不比较看不出来,我们再把带宽降低到1到5兆,可以看到图像比较模糊,但是依然能完成手术,这和我们20年前做腹腔镜监视器的清晰度差不多,也能完成手术,当我们把它降到1兆以后的时候就很模糊,很难做精准的手术,所以不同的带宽,三千公里的也是可以的,大家知道5G手机带宽就是这样。
同时我们也看到有弱网络的情况,因为非物理的传导,这个时候遇到弱网的情况下我们设计了避免减少和延迟的发生情况,信息流明显下降,这个时候通过压缩图像清晰度减少流量,来避免延迟的发生,一旦5兆基本不延时,而且我们可以保留术野中间高清晰度,达到有效避免延迟的发生。
大家可以看到不同网络带宽对手术的影响,1到5兆和10到15兆,两者操作起来非常流畅,但是它有一些区别,仅仅出现在清晰度的差别,1到5兆也能完成远程外科手术。
大家知道外科医生遇到风险最大,最最致命的并发症就是出血,我们也设计了血管损伤的动物模型,大家看到这是个肾静脉的出血模型,我们采用单盲,是一个医生来制造血管破裂的模型,另外一个医生进行修补,在1到5兆和10到15兆不同带宽下面,能够非常从容的安全的控制修复这个静脉出血,当然静脉出血是一个相对来说比较容易的血管损伤出血,但更严重的是动脉出血。这是一个髂外动脉的出血模型,这个出血是非常凶猛的,我们依然是采取单盲的设计,一个医生建立出血模型,另外一个医生上去进行止血,可以看到在1到5兆和10到15兆带宽情况下,我们依然能够从容的、安全的、可靠的来进行血管修补。所以说从事这两个最危险的动物模型,远程外科就是在1到5兆带宽情况下也是安全可靠的。
建设网络还涉及到网络攻击的模型,当我们受到网络攻击的时候,大家看到这个信息量很平稳的,它遇到网络大量的信息流大幅增加,但有效流量大幅减少,这种情况下就跟弱网一样,我们设计了一个专门的模型,能够抗打击,所以我们也通过降低调整视频数据来减少和避免网络的延迟。
作为外科医生能完成手术是一个方面,作为一个设备,医生的舒适度也是非常重要,我们设计了医生主观感受的测试,包括四个任务,比如基本的器械操作,第二类脂肪游离和止血,还有复杂的修补,比如肾部分切除、肠吻合术等等。
我们通过NASA-TLX任务负荷指数量表,通过6个医生去评价,可以看到1到1分是不能完成手术,5分是非常圆满,是现场手术差不多,6位医生评估以后,基本上都是4到5分,也就是他们做远程外科和现场机器人手术几乎是差不多,就是远程外科几乎达到了和现场机器人手术差不多安全可靠和舒适感的效果。
所以归纳起来远程外科虽然大家都在摸索阶段,但是在中国是依然非常有有效的,第一钟一地大物博,需要边远地区,需要优质的医疗救援,我们在灾难救援的时候也需要远程外科实时进行救援,同时现在大家都要发展空间离岛,同时我们也需要将后方大城市最优质资源投射到这些边远地方需要的地方,所以说还是很有前途的,谢谢大家!
福田敏男:感谢张院士精彩的演讲,讲解了手术以及在中国远程外科的发展,下面邀请韩国国家工程院院士,韩国科学技术院教授,人机交互研究中心和未来医疗机器人中心主任Dong-Soo Kwon,今天他给大家汇报的题目是柔性内窥镜手术机器人Zamenix肾结石治疗的进展。
Dong-Soo Kwon:大家早上好!我上次参加还是四年前世界机器人大会,非常高兴见到大家,今天跟大家汇报一下在疫情期间我们在机器人技术外科手术上的一个进展。刚才张院士讲了远程手术机器人他们做的非常好,我们这边认为机器人确实远程大幅的改变着外科手术,现在在市场上有非常多的医用机器人公司,他们都有新的医用机器人产品,但是很多都是达芬奇系统的一个大同小异,中国Kedical等等其他的品牌,他们公司的产品非常棒,但是与达芬奇系统非常的像。但总之我认为他们有一些局限,比如说是僵硬的、僵化的、刚性的,我们是希望使用一种柔性的思路进行这种内窥镜手术,比如说机器人内窥镜手术是否可能呢,这个是我们想问大家的问题。
这是我本人的信仰,我认为机器人内窥镜手术的时代已经到来,新的手术机器人的时代也已经到来,如果我们有这样的一种类似于蛇形的手术机器人,我们就可以完成大量的手术操作,而不需要插入患者体内,我们可以通过自然腔道来做微创手术,我们可以通过口腔、下体或者是血管,或者是尿管来入路,而不需要在患者身上切开或者有创伤,这是我们当前的一个刚性的腔镜手术机器人比较常用的像泌尿外科、妇科、心脏、结直肠等等这样的外科手术,但是更多的一些领域现在并没有应用这样的手术机器人技术,随着柔性手术机器人的开发我们可以更多外科手术的领域。
作为韩国国家工程院院士,我在这方面的研究已经超过30年,我们尝试过很多种不同的手术机器人系统,其中一种就是ESD或者叫内窥镜下黏膜剥离术式,有很多的消化道癌症的患者出现在韩国和中国,这种情况下我们就可以通过首腔入路来完成微创的手术,不需要开胸或者是腔镜,这个叫做内窥镜下黏膜剥离术ESD,当前依然并没有很工具,所以他们现在的做法就是常规的内镜+手术刀,这里很难获得清晰的剥离平面,我们确实需要有更好的机械臂来辅助我们完成这个ESD的术式。这样子医生就可以更好的完成一个机械臂提升组织,另外一个机械臂可以通过激光或者其他的方式来切割和剥离,我们可以由更好的术野,并且更好完成相应组织的牵拉,我们也已经完成了在胃内8个病理区域的检测,您可以看到这是胃的不同区域,尤其是上胃部到下胃部,这个是有180度的一个区别,尤其是在胃顶部如果出现肿瘤的话,进行手术操作是非常困难的,但是随着柔性手术机械臂的开发,我们可以在术后获得更好的转归,我们不需要让术者再进行没有术野情况下的剥离,手术时间、盲解剖率、术中出血就大幅度的降低,所以我们就使用了这样一个新的技术叫做K-FLEX。
这是一种非常很容易弯曲的系统,但是必要的时候我们也可以把它索扣,它会有足够的强度来支持手术,它控制起来也是非常便捷的,我们也做了几个案例,您可以看到这里是有一些模拟胃部内部组织的结构,这个是腔内手术,也包括基于舌部的切除术,这个时候手术区域是很在窄,而且是弯曲的,使用达芬奇是很难完成这种手术的,但是我们就可以像蛇一样能够进入弯曲的部分执行手术,我们还做了一个精气的囊切除术,胆囊就在肝的旁边,而肝本身是一个质量比较大的脏器,我们是可以通过人的肚脐来入路完成胆囊切除,是一个非常简单的手术。我们也考虑到不同的一些术式的请求,比方说结直肠癌的手术,所以我们机械臂可以长达两米,这个属于如果手术臂过长,控制起来是比较困难的,但是我们系统是没有问题的,我们在动物模型上做了实验,我们之前说到这种后曲手术超过180度,在胃的上半部完成手术操作是完全可行的。
我们现在也正在继续验证这样的一个机器人的样机,正在准备产业化,可能下一次来参会,我就可以把已经上市的机器人版本带给大家,现在我们又关注到另外一个领域就是肾结石的治疗,我不知道大家有没有患有肾结石的观众,这是非常疼痛的一种疾病,而且它很长见,大约发病率是10%,10%的人群当中都会出现肾结石的问题,如果肾内出现了结石,我们会使用逆行输尿管软镜来完成手术,经输尿管进入肾内,然后找到结石,通过激光碎石,然后用套石篮将结石最便取出,之前我们都是通过术者手动操作来完成逆行输尿管镜的去除术的,这种情况下必须要有两名医生来协作,一名医生操作输尿管镜,另外一名操作激光和套石篮,所以是要两名医生来协作的一种手术,但是我们现在引入了一种新的方法。
下一代的一个内镜手术机器人系统,我们发现它易于控制,效率很高,可以最大化术者的表现,安全性极高,而且其手术结果高度一致,这就是Zamenix。那么在手术室内可以看到我们的操作方式是非常不一样的,现在术者就可以站在患者旁边,但是之前因为术中需要使用X射线,所以外科医生他是必须要穿戴辐射屏蔽的设备,但是现在通过机器人的使用,我们就不需要外科医生再去穿这个铅袍了,他就没有必要离患者那么远。它跟达芬奇是比较类似的,包括手柄和从属的机械臂,这些有很多商业可用的产品,我们可以把激光和套石篮安装在机械臂之上来执行手术,这是铺巾,当然达芬奇也要做铺巾,因为要做消毒,我们的铺巾或者准备时间是很短的,我们系统5分钟之内就能够完成。
我们在手术室内如果使用这样手术机器人的系统,术者会在这边,助手在旁边,助手和医生质检部需要有过多的协调,这个时候可能一名普通的护士就可以帮助术者来完成必要的一些器械的更换等等。我们在这个产品当中引入了非常先进的技术,其中之一就是动作的传感,当我们电极触及到肾内组织的时候,我们就可以知道,我们对于压力的传感是非常非常敏感的,我们还可以做非常细微的动作控制,而且可以保证手术臂的一个稳定性,大家知道如果手柄很大的话,它也可能会让手术臂的操作也变得比较困难,那我们的这个手柄可以保证我们完成细微的操作,非常精密。当外科医生想要移除比较大的结石的时候其实风险是比较过的,我们也可以通过术中自动的结石体积测量来给出警示,这些是我们内置的一些功能,当我们把结石移除的时候,可能激光碎石之后有多个碎片需要一个一个去做,这是重复的动作,我们现在系统可以把这个动作自动化,就好像是你开自动驾驶的汽车一样,那我们现在的技术允许只需要操作员做10%的角色,剩下90%都是系统自动完成的,跟我们这个系统是有相似之处,这样子我们可以让医生有更加好的术野,而且辐射屏蔽的效果也更高。
大家知道这种医疗器械的产品你要商业化并不容易,所以我们也设计了一款样机,2021年就已经问世,做了大量的临床前的动物模型的研究,主要是在两家医院,峨山医院和影森医院,我们当时使用的是猪的动物模型各完成了2例和10例,这个主要做的是安全,包括对于结石的定位、碎石、取石,我们来验证它的安全性。然后这样一个自动的取石和路径的记录,我们可以使用自动的导尿管镜插入和移除的功能等等都是非常成功的,当我们获得批准可以进行临床研究之后,换句话说我们已经验证了这个机器人的安全性,韩国的政府允许我们执行临床研究,2022年我们完成了47例的人体手术案例,主要是在2家医院首尔国立医院和影森医院。换句话说我们现在是真正在患者身上做手术,来做输尿管镜的手术,医生觉得它控制这个输尿管镜是非常轻松的,不需要过度使用肌肉,可以坐下来很轻易的来操作,手柄可以精确稳定的来控制输尿管镜,在碎石期间我们也是可以很安全的,大家知道患者在手术台上呼吸的时候,他的肾脏也会随着呼吸而移动,我们现在的机械臂会模拟患者的呼吸频率,而进行自动的移动,那这种情况下我们可以提升和效率和精准度,这样可以减少对于患者的伤害,这是非常好的。
这个是一种呼吸补偿的技术,可以帮助医生更加精确的完成手术操作。这个就是在人体完成的手术,这是自动的一个路径记录,可以让输尿管镜再次入路,大家知道医生在操作结石手术的时候,输尿管镜需要反复进入再移除,那么系统可以自动记录其路径,一次进行手动操作之后,后续都可以由系统自动的来完成。如果结石太大的话,我们会用一些AI辅助,我们可以进行估算结石大小,如果结石太大,它可能会损坏输尿管,我们就会发出警告,让医生再次的确认可行性,这样我们就可以去阻止可能的损害。
我们看一下临床结果,无痛术式,也就是完成手术之后,如果结石还在里面,就会再次的产生肾结石的疼痛,也许会再次或者在次手术,所以除石率是非常重要的,我们能够达到这一点的话和其他很多术式比起来都是有优效性的。另外也就是术后的并发症,比如说出血、发烧,可以看到我们在47个案例里边有非常非常少的并发症,这是非常好的,这个比手动的术式要优秀得多。那么我们已经获得了一些医生的反馈和认可,他们说用起来非常的舒服,并且不容易疲劳,他们说在进行激光术式的时候非常有用,因为他们可以非常精准的定位,同时医生还说,还需要一些改进和一些迭代,患者也给了我们非常好的一个反馈。比如说医生也说需要提高一些触觉的反馈,患者跟我们说他们觉得用机器人手术的话疼痛感更低,并且感觉到手术之后立刻就可以呼吸了。
我们已经获得了韩国药监局的审批,我们知道中国也有类似的审批机制,我们已经获得了去年10月25日的批件,实际上这个在韩国也会被视为是非常困难获得的一个许可,我们已经通过了韩国GMP的核查,并且已经获得了ISO的认证,我认为柔性内镜机器人会有更多应用的空间和场景,张院士在向一些泌尿道疾病、癌症方面他都是大专家,那么我们新这样的一种柔性的内镜机器人可能会应用在一些血管或者一些比较狭窄的空间的手术里面,我相信我们在机器人手术方面的探索非常的重要,我也非常的期待,中国的朋友们和合作伙伴们,如果感兴趣的话可以联系我们,谢谢大家!
福田敏男:非常感谢Dong-Soo Kwon院士,下面有请加拿大工程院院士,南方科技大学教授孟庆虎,今天他给大家演讲的题目是GPT时代的智慧医疗与手术机器人。
孟庆虎:非常感谢您的介绍,时隔多年再次线下见到大家非常的激动,因为今天大部分朋友都是中国人,我将用中文进行演讲。
大家早上好!今天我跟大家汇报一下我们在智慧医疗和手术机器人方面的一些工作,这个是最新的一个视频,就是在显示他们这个仿人形机器人运动各方面的能力,这个视频它基本上是一镜到底,说明它动作非常连贯,但是有一个最大的缺陷,这个工人一直在调侃它,但是这个机器人从来就没有回应过一句话,就是机构在运动、在控制,在这些方面它都可以做的这么好,为什么就不能进行语言的交互,现在我们ChatGPT大语言模型已经做的非常好了,人机对话、语言模型这个事为什么会这么难?我们再看一个视频。
他们一直试图在大语言模型人机对话方面做出一些贡献,他们有一个APP叫谷歌(英文),但它从来没有被释放,原因很简单,就是它的成功率特别低,现在播的这个是一个机器,人工语言的算法,去打电话约了一个理发,从头到尾成功,而且对方不知道是一个算法在打这个电话。这个就是谷歌也在过去二十多年中做这个努力,但是成功率不是那么高,正是因为谷歌这方面的努力,使得Musk和Altman当年就说这个东西不能为利益,一定要是开源的,所以他们搞了一个Open AI,Open AI最后也真的不是一个开源的东西,因为它要投资人,有投资人就有资本,有资本就一定要有利润,所以前后好几轮都是微软领投的,所以最后微软变成了Open AI,就是后来ChatGPT最大的受惠者。
ChatGPT到底是个什么东西呢?所以说大家听到它自己的回答非常的明确,它是一个大语言模型,但是训练过的就会,没有训练过的还是不会,它自己不会去网上搜索信息给你做出一个答案,所以大家一定要知道新的技术不管多好,一定要知道它的擅与不擅,它这个地方就是告诉我们它是有边界的,是有不能干的事情的。
文本AI是什么意思,它是一个低维,是个一维度的,因为它是处理文字,ChatGPT现在就是个文本AI,实际上我们人获取信息主要是靠视觉,我们的视觉是一个二维的信息,如果到了视频,那就是三维的,因为加了个时间轴,所以我们说文字处理现在可以做的ChatGPT写一个文章,围绕一些关键词,围绕一些核心观点它可以写的非常的好,但是我们在图像识别方面会是怎么样,我们下面看一下图像视频。
这是2015年的一个报道,大家可以看到它的人工智能实验室做的这个读图,他把全球可以数字化的影像全部放在这个上面,每年都有比赛,这个比赛到2018年是最后一届,后来就没有意义了,我学过会,没学的还是不会,比如牙刷它没有学过,跟算法比对,比对下来以后这个跟棒球棒最接近,它就简单粗暴的说这个小孩拿了个棒球棒,但是我们人类从来不会这样做决定,首先你根据这个小孩的尺寸,跟小孩的手、脸对比,你至少会说它是一个小的像棒球棒的东西,上面还有毛,你肯定说它是一个长着毛的小的像棒球棒的东西,人类会做进一步的解释,但人工智能就非常粗暴。
ChatGPT既然是个文本AI,我们还是想挑战一下,我就给了它一张图,我给它图之前发现他们自己释放了一些读图的例子,比如说这张图有什么特殊的地方,他说特殊的地方在行走的出租车后面熨衣服,它说这个是因为在苹果手机后面插了一个VZA接口,但是VZA接口又是一个(英文),所以它自己放出来的,功能没有给我们放,我就给了它一张这个图,这个图是图像处理里面比较经典的,就是用传统最老的图像处理的方法找边界、对模型,这个是永远对不上的,因为边界是模糊的。我们把这个给了ChatGPT,ChatGPT是这么说的,它说很抱歉,作为一个基于文本的AI,我无法直接查看和分析图片,如果您有关于图片的任何问题,请尝试描述图片的内容,我会尽力提供帮助,就是说你不管图像也好,什么也好,文本AI只认文字,其他东西读不了。后来我有学生在这个团队,我让他用内测的,也是测不出来,4.0也测不出来。
但是谷歌的Bard就可以读这张图,它说这里有一些黑白豹子的图片,至少它是抓到了这里面是有一个黑白斑点的动物,黑白斑点最明显的当然就是豹子,所以它自然就说它是一个豹子,这个当然也可以是一只狗,也可以是一只羊,也可以是个小牛犊,四条腿的动物,在闻着地皮或者吃着草皮往树荫下走去,人类可以看到这样的东西。你看谷歌的Bard说,至少它可以看出这是一个四腿的动物,然后说黑白豹子,首先它又看到了阴影,所以它把这两个关键词组合在一起,就开始各种发挥和造句,就说阴影中的豹子,又延伸豹子是兽中之王,叶的影子同时有两个跟它相关的电视、电影都把它描述上来,所以至少是它比较靠谱了,但是你说它完全的能够理解的像我们大部分人的理解一样还是有距离的。
这个东西为什么会这么难,我们人类为什么能够读懂这样的图,而现在人工智能算法还是比较难呢,我们的大脑每秒钟可以处理一万亿比特的信息,我们大脑每秒钟收到四千亿比特的信息,但只会对其中两千条做出关注,对七条有短暂的记忆,最多对一条作出反应,我说这个是什么意思?就是我们人的智慧叫普通智能空间,每个维度上的强度是不一样的空间的球体,它从中间发射出来,每个维度上面相当于一个集合,我们的知识都是在每一个集合里面,比如有一个数学,有一个是艺术,有一个是体育等等等等,所以说我们在所有的这些智慧的大脑里面,每到一个场景,我们会有四千亿比特的信息刺激我们,但我们会根据我们自己的优先级和我们想做的事,我们的目的来决定四千亿比特信息里面,我们对哪两千条有所关注,而且对哪七条会有短暂的记忆,并作出一个反应。
比如说我们今天来这里听讲,来的时候大家都是一件事,就是今天来听演讲,每个人来的优先级和目的性都是不一样的,有的人说想听一下机器人现在发展到什么样了,这帮人进来找到比较容易听到和看到的位置坐下来,另外一个人是为了接近这个女孩,所以他来了以后不管今天听的清楚听不到清楚,我要迂回到这个女孩的附近坐下来,所以同样一个场景,每个人的目的和优先级不一样,最后数据集交换级得到的结果是不一样,这就是四千亿到两千条到七条,到一条。四千亿比特信息在哪儿呢?我要是问大家这个屋子有多少台电视机,没有人关注这个事,这这个属于四千亿比特信息在刺激我们,正好有一个人要琢磨偷这个电视机,他一到这个房间第一件事就是电视机在哪儿,门在哪儿,偷了以后怎么可以离开,所以同一个场景,不同的目的会决定我们的反应。所以我们这个智能空间维度特别大,但是当我们遇到一个长颈的时候,我们很快会把它缩小成一个反应七个记忆等等这样的事情。
人工智能现在基本上训练下来以后也是一个低维度的空间,它不像我们普通智能是一个高维度的,但是它有一个特点,它在某些维度上的强度可以超过人类,有了这样的解释我们可以知道像阿尔法狗我们可以认为它是单维的一个智能空间,但是在下棋这个维度上它的强度已经超过了所有的人类,所以它可以战胜人类,但是在其他维度上它可能根本就不行,比如它没有学过算术,你问它2+3等于几它都不知道,所以我们有了这样的理解就比较容易了。
人脑和计算机的区别到底在什么地方,我们说人脑到底有多大算力没人知道,但是我们现在训练人工智能,多大算力我们清清楚楚,人脑用的什么算法没人知道,大家都说是一个神经元网络,但是也没有确定的证明这个就是真的,但是我们知道人工智能用的是什么。一个数据量,我们一个人平均的数据量是多大才能训练一颗正常人的大脑,没人知道,但是我们知道多大的数据量可以训练到我们现在的ChatGPT4.0。
所以说随着我们这个大模型和数据集的训练,我们的模型参数在增加,学习数据在增加,结构算法一直在优化,最后的性能表现,像ChatGPT4.0基本上在文本AI这个领域已经可以接近人类的水平或者达到人类的水平,但是大家记住只是在文本AI。有没有可能有一天我们这个人工智能已经到了一个程度,就是我们训练出来的人工智能空间已经接近普通智能空间,而且在多个维度上它的强度已经超越人类呢,有这个可能。但有这个可能带来的问题就是,那我们可不可以用这样的人工智能呢?道理很简单,你如果能负担得起就可以用如果我们负担不起怎么办?我们的方案是,我们再走回去,我们用超低维场景两应对这件事。
比如说举个例子,像胶囊内窥镜机器人,这个就是我们把场景限制在消化道,从口腔到肛门整个消化道这边如果限制好,对文字识别我不会,人脸识别我也不会,但是当你帮我放在消化道的时候,我对从口腔到肛门整个消化道里面所有不正常的地方和所有的病变我都可以帮你找出来,所以我们训练这样低维度、超低维度场景的智能是可以做到训练到极致,让它这件事做到极致,但是成本又可以可控。
第二个例子骨科手术机器人,如果我们把骨科手术机器人也限制在骨科手术这一件事上,我们也可以做的非常好,我的术前规划,我把以前手术所有的数据集合起来,然后我做我的术前规划,规划做完以后医生可以根据他的经验做微调,确定手术,然后就可以做了。我是怎么开始这个,我是1985年到1988年,硕士论文就是机器视觉及基于视觉的机器人控制系统,我们当时有摄像头、机械臂、286,到现在为止我们做手术机器人一样的,光学导航、机械臂和计算机,所以1985年就开始做这个事,博士论文做的是基于模型机械臂的力和位置控制,所以我们做手术一定要有力的控制,所以我后来不管在哪个学校一共工作过三个单位,我们做的都是机器人。
2001年到了香港以后,梁国飞骨科医生他说我们一块做机器人吧,他说他有一个机器人,这个实际是一个被动的定位装置,但是他的目标是要把这个机器人整个系统做在10万块钱人民币以下,县级医院可以用得起,当时说一个导航仪要50万港币,怎么可以做到,那我们就从科研开始,所以我们就开始做光学导航,做了十多年,把光学导航这个领域每个石头都翻过来看了一下,我们又开始做力位置控制,也做了七八年,最后才开始做产品,我们一共做了五代产品,目前是我们第五代产品,就是三件套,导航,这个相当于视觉,机械臂相当于硕士论文的时候做的那个机械臂一样的,然后是控制算法。
现在国内市场上面的关节置换的机械臂大概有这么多,有国外的,有国内的,拿到证有7家,适应症有膝、有髖,技术方案有自主的,有半拉子技术,就是说机器人并不参与手术,它把这个截骨导板放到一定的位置,还是要人手工去截,如果我们把全自主的拿掉,把这种半拉的技术拿掉,现在中国市场上实际上就有三款,一个是美国史赛克的MAKO,另外是国产的一家,国产这家它需要在做手术的时候要打一个钢针,把腿部固定死才可以做,而且全膝关节置换,6个面,每切一个面要回去复位一下,再来切第二个面,这个技术太落后,如果我们去掉的话实际上就等于是我们和史赛克的MAKO,MAKO截膝关节的6个面需要两套刀具,而我们只需要一套刀具就可以完成,所以从技术商来说,这个目前是国际上最先进的一款。
是我们优效性临床性实验,左边这是华医医院周登科医生在做手术,特别轻松,基本就是玩游戏的感觉可以做出来,优效性的临床试验就是机器人比人工好,我们最后的结果是全膝关节置换我们比人工要好20%,全髖关节置换我们比人工要好33.6%,所以说基本上就能达到这样一个东西,我们有自研的导航,库卡的机械臂最后还是不能满足我们对刚度,对柔顺性的要求,所以我们自己又做了一款,这个是目前全球唯一一款专门为骨科手术机器人研制的机械臂,所以它是零重力补偿,你随时松手它就可以悬停,然后它的(英文)是最好的,钢度也是全球最好的。所以我今天跟大家介绍的就是如果人工智能这样好的工具,我们不但要知其善,更要知其不善,才能低成本把它用得更好,我就介绍这么多,谢谢。
福田敏男:非常感谢孟庆虎教授,谢谢您的精彩演讲,给我们说到了GPT的智慧和手术机器人,下面有请电气与电子工程师协会(IEEE)副主席(2020),日本工程院院士,香港大学讲座教授Kazuhiro Kosuge教授,他多年来在日本研究担任了很多学会的重要职位,是IEEE终身会士,下面请Kazuhiro Kosuge教授为我们分享运用机器人技术处理软材料的挑战。
Kazuhiro Kosuge:非常感谢主持人的介绍,我非常荣幸今天出席,为大家分享我最新在香港大学研究的成果,我大约两年前加入香港大学任讲习教授,我希望大家对我分享的这个新的领域,运用机器人技术处理材料的兴趣。
首先我想给大家看这张老照片,大家知道这张照片说的是什么,这是1946年,这是世界上第一台电子数据计算机,当时我们最主要的计算机的部件是内存,但是那个时候没有我们现在这么好的一些内存的方法,他们使用的这些磁性的棒,然后我们后续就发明了这样一个磁性控制的回放器械,可以用于工厂的自动化,这是一位非常厉害的科学家大卫,他就设计了一个可编程的机器人,1961年获得了专利,1956年创立了(英文)公司,在上世纪60年代这种工业机器人就进入了市场,这是我从网站上截下来的图,这是当年第一代工业机器人。
从那个时候到现在我们取得了长足的进展,这边就是当时内存的记录系统,这个叫做可编程的数据迁移内存控制器以及一个机械臂,机械臂可以来捡起物体进行操作,这个其实就是今天工业机器人的起源,它进入了市场,从第一台机器人销售到现在已经有超过60年了,现在的很多机器人使用了图像的AI以及最近的一些新的像传感等等先进的技术,所以现在机器人可以做很多别的事情了。
这个是多类物品识别摘取机器人,这个是机器人去组装CPU和内存,因为我并没有这些视频的版权,我就只能给大家看一下我自己研究的视频了,有一天有一个公司邀请我设计一个机器人系统,可以用于不同的零件的一个编织,也就是说把不同的东西组件都放在一起,并且把它们放在一个编织盘里边,输入到一个自动系统里面,这些都是不同的元件和部件,机器人应该把它们有序的摆放在这样的一个工具盒里面,便于下一步的使用。这一步本身是由人工的工人去摆放和操作的,我的目标当时是设计一个系统就可以去摆放16个,如左图所示的零件和组件,这是不同组件的样子,所以它摘取的逻辑是把它放在一个篮子里,它在抓取的时候需要进行识别,有时候需要转向,有时候需要上下颠倒,这个是我们最后的一个呈现的样子,大概五年前做的这个研究。
大家可以看到它的上下一开始是反的,所以它并不能直接放在上面,它要上下颠倒一下,这里面也有传感信息,读取系统,我们可以用传感系统识别这些物品。我们手里拿东西的时候,可以看到这是可见的东西,这个东西很容易去拿,我们怎么拿都可以,像手怎么拿都可以,人是用视觉看到的这样一个东西,然后就知道我们的手去抓它的什么地方,机器人实际上也是这样的逻辑,它也有一个传感器和一个抓手,它需要借助传感去控制机器人手臂的运动,这是最基本的工业机器人的一个逻辑和原理。
但是实际工业使用的情景,现在很多工业生产的流程里边都已经使用,但有一些发现使用机器人确有难度,比如说有些软性的材料的物品如何进行操作,这个就是一个难点,大多数生产的流程,有软性材料的流程还是由人工去进行的,也就是说他们不希望机器人去破坏这个物品的外表,也就是说它无法去调整自己的力量,像这个东西是个布,它可以随着你的动作去改变它的形状,所以我并不想强调说这个东一是一个很容易拿的东西,这个东西没有形状,它的形状是非常不稳定的,你可以把它放在桌子上它是平的,它只能在另一个东西上才能有它的形状,所以说在抓取或者操作软性物品的时候机器人是比较困难的,而软性的材料必须要由经验丰富的人工才能操作,自动化是很困难的。但是每个国家都面临着劳动力短缺的问题,而且所谓的技能熟练的熟练工不能低估熟练的概念。
比如说服装厂的工人,他们必须要有长时间的训练才能去操作那些机器人,并且准确的去做出我们想穿的外套等等,鞋也是这样的,它需要揉制皮革,这个揉制当然是一种形变的正面的一种意义,他并没有把它变成不想要的形状,他是把皮变成了想要的形状。同时布线看起来很容易,但实际上并不容易,很多的工人是专门做布线工作的,一般像汽车里边的布线都是人工做的。另外为了提升效率,很多的飞机、汽车都在使用碳纤维材料,这是一个碳纤维的一个预制的模子,然后他们会使用预制模子,很多人都会去一件一件的做这样的模具,因此对未来来说机器人如果能够操作这些柔性材料的话会有更多的前景。
现在我们来看一下制衣行业它是一个特别典型的操作柔性材料的行业,它也是最劳工密集型的行业,所以说到最受制于劳动力短缺的问题,我记得保罗泰勒教授在八九十年代的时候都做过研究,关于先进机器人以及人工智能。大概几年前(英文)也做过这方面的研究,他的著作也很有趣,实际上泰勒先生虽然岁数已经很大了,他八九十年代的时候做了很多研究,有些是在制衣行业机器人的运用,可以看一下1996年的一本书,这本书是我买的,这本书上讲了自动化的组装工具箱,80年代的时候他们就开发出了这样的一种卷纸的一个机器,进店卷纸器,比如说一件、一百件同样的衣服,然后把它进行这种整理,正常情况下要一个一个去叠去放,但是用这个机器他会把衣服卷起来给排好。然后这个机器是把一件布料或者纤维从一个地方输送到下一个步骤,这是其他功能的机器和机器人。所以自动化在当时,或者对制衣业来说就是替代掉一些熟练工,但是我觉得制衣业还是很有趣的,因为在桌上布料它是有形状的,它是平的,但是如果你把布料拿起来它就失去了自己的形状,它就会从桌面上那个2D形状变成空间中的3D形状。那么这个研究实际上如果我们自己去做的话也很难,比如说去进入制衣厂自己也没法工作,必须要有特定的训练也可以,这也是他们熟练工的概念。
AI的从业人员都有很远大的梦想,他们希望用AI解决所有的问题,比如说衣服的熨烫,这是哥伦比亚大学的阿伦斯团队做的,这是UC伯克利做的,这是另外一个叠衣服的机器,这是宋教授非常著名的一位香港大学的教授,很多的研究都是在这个领域的。在日本我们有一个叫做Landroid洗衣机器人,2015年的时候是在CTC实验室做出的研究,它从烘干机里面拿出这个衣服,然后人们一般从烘干机里拿出衣服进行熨烫,我其实并不知道里面有多少个机械手臂才能完成整个的操作,最终虽然做出来了,但是它这个智能洗干熨机器人也没有商用,可能是由于具体行业的原因。现在主要对于柔性材料操作的机器人都是基于基础科学家的好奇心,但是最终需要看行业有没有真正的需求,需求是否可行才能让他去落地,很多的AI也是缺乏很好硬件的支持,所以无法大规模应用。
这个是服装生产,我们可以看一下是一件衣服从最初的布料最终如何成衣的,其实是非常复杂的一个过程,我给大家看一下我们之前做的研究,当然这个文章现在还没有发表,第一个是我们布料的一个位置控制,这里边是我们的一个控制流程,我们如何去控制所有机器手臂的动作。CNN是一种处理方式,但是主要的问题是如何去处理数据,对于我们来说这是实物操作的机器人,我们不能用太多的模拟,因为我们使用的是这种动作探测,这样就可以让随机动作更容易被发现,我们现在进行了一个测试。可以看到这是AI产生的图像,把布料从有褶皱展平是可以同时实现的,一共有四分钟的视频,里面还有两个视频,在这里可以看到如何把褶皱用两个机器手臂展平,这是在今年大会上5月伦敦已经展示过了,大家感兴趣的话可以读这篇文章。
下面一个是柔性材料的操作,这个就不太容易了,我们放了一个RGB摄像头,然后两个机械手,同时看它们可以精准的在空间中操作布料,首先抓住,然后使用视觉捕获,然后把它精准的放置,展平,它是可以是用在工厂中的,我们现在也在去研究这方面的商业应用。可以看到使用机械手可以精准的把这块布料放置和展平,看起来很容易,但其实并不容易,它的边角并不总是垂直的,所以想把它彻底的对的严丝合缝是很困难的。
大家可以看到对于这个机器人的应用也在准备一篇学术论文,我们希望可以很快的提交出版,当然因为某些数据是保密的,所以今天也不能跟大家展示全部的细节。在这个情境下,另外一个问题就是我们有一位客户问,我们如何能够辨别最上层的这一个织物,在这个时候我们如果发现最上层的织物稍有移位我们必须要有非常精确的定位,我们通过视觉和传感的结合。
好的,接下来给大家看我们当前的一些初期的实验,当然我们在这里会有不同的自动的缝纫机,它会使用数控的方式,但是在这个案例当中因为我们的布料是柔性的,所以首先是需要通过缝线来固定,在中国把它叫做蝴蝶,其他地方会把它叫做模板,我们要把布料放到模板上,通过缝线来固定,然后就可以像一个刚性的物体移动,这个只能应用于大规模的什么,因为模板固定需要根据每一个部件来单独的设置和缝制,所以如果你现在换了一个部件的话就需要换一个模板,我们就在考虑如何在个缝合固定情况下完成缝纫,这就是其中的一个案例。我们也在准备这个案例的正式文章发表,这些也是未发布的成果,通过两个机械臂我们可以展平这块布料,你可以看到这是两块布料,我们其实在这过程当中学了好多关于缝纫的知识,这并不容易,你需要不断检查缝纫的缝线是否是对齐了
最后我来总结一下,今天的机器人技术是基于1954年的(英文)发展,当时主要是为了处置刚性的物体,其实很多制造的流程是处理了一些柔性的材料,所以很难完成自动化,现在人工智能并不能够完成真实世界挑战的应对,现在机器人的硬件也不能够给我们提供足够的可能性,但是如果我们开发新的一些AI的程序,我们可以处理一些之前不能够解决的挑战,比方说柔性材料的处置,我们希望各位年轻的朋友们能够投身于这样一个非常有前景的领域的研究,谢谢大家!
福田敏男:非常感谢Kazuhiro Kosuge教授给我们做的精彩演讲,说到了机器人如何来处理这些柔性的材料,下面一位发言嘉宾是IEEE机器人与自动化学会主席,韩国工程院院士,韩国首尔国立大学教授,香港大学客座教授,他也是赛事智能科技的创始人,这家公司专门研究检测和质量控制的工业AI,他也开发了一些EDS的课程,并且合著了一些教科书等等,下面欢迎Frank Park教授。
Frank Park:感谢主持人,我们今天是一场机器人的盛会,但是我今天的主题可能更多的是跟工业自动化相关,并没有特别关注于机器人,大家可能都知道安德鲁,他是AI一位著名的专家,他在这里曾经有一些很著名的名言。他曾经说到当我们20世纪初最开始出现电力的时候,大家并不知道怎样最高效率来使用电力,人工智能可能正处在现在一个阶段,我们正在努力的搞清楚人工智能最好的用途是什么,但是我们也知道它会成为我们社会方方面面的一个非常重要的里,甚至是颠覆性的力量,所以我们下面的问题就是哪一个领域不会被人工智能所颠覆。
机器人也是如何,人工智能+机器人可能会彻底的变革制造业和工业,我们现在正在说话的时候,正在经历这样的变革,接下来我们来分享怎样在工厂里边使用人工智能,哪些好用,哪些不好用,我们近期和长远的挑战都有哪些,所以我会使用这个词自动化,这是一个很广义的概念,自动化有很多种类型,我会主要关注于工业自动化,我们认为工业自动化指的是这些厂房、工厂、机器人等等,但是实际上工业自动化也在经历变革。
21世纪我们会有很多种不同的一些,比方说农业、工业、仓储的一些自动化,这里有很多新的领域,这边是一张示意图,大家可能很多人都见过,这指的是未来的工厂,这里面可以看到有很多的应用,这是2020年的示意图,我认为什么样的技术会率先落地呢?或者人工智能会怎样率先在工厂里边应用呢,它并不是一夜之间来完成的,是要按顺序一步一步做的,首先我们要看的就是检测,AI用于检测和质量控制,其次就是监控,就是有对于机器故障的监控,什么时候进行维护维修等等。当然这里也会有一些问题就是这种监测的立即应用,大家知道机器人其实并不容易出故障,那下面的一个领域是运营,这也是非常特殊的一个领域,这方面也正在推广之中。第四个领域机器人可能会多花一点时间介绍,接下来我们按顺序介绍一下四个应用领域。
首先说一下工厂,今天我们看到很多自动化的工厂,大多数在中国,大家在左上角可以看到有一些是高度自动化的,几乎是无人工厂,在每一家工厂总是要有人,即便是自动化的工厂你也可以在角落里看到人们走来走去,穿着蓝色的防尘服坐在小房间里,右侧这个工人在做什么呢,他们绝大多数情况下都在做检测的工作,质量控制、监测、检控,这差不多是七八年前我拍的照片,这是也一个比较老的视频,这是很老的一个iPhone和ipad的工厂,其实做自动化并不难,为什么机器人没有取代呢?我要告诉大家的就是,工人们并不是很简单的把ipad装箱,首先也是要进行一个目测的检查,看看表面是不是有划痕或者是灰尘,如果看到杂物他们会移除,所以这样的检测是很重要的挑战,这个时候这些人要做怎样的一些检测工作,我认为可能是有两种,第一种是必须要完成测量的,比如厚度是多少,直度是多少,这种是电脑完成比人更容易,我们叫做基于规则的系统。
另外的一个其实人比机器做的更好,它更多是这种定性的,而不是定量的,有没有污点,有没有划痕,这个划痕是不是可以接受还是被认为是缺陷,这些更多是由人来完成的,电脑执行起来会比较困难。大家知道检测有很久的历史,最开始就是基于规则的检测,换句话说制定规则检查产品是否遵守规则的检测。所以这样的一些任务是人所擅长的,但是人工智能还是比较困难的,我们认为这对于深度学习来说是很容易学习到的一点,大家很多人对于深度学习都有基础的了解,换句话说收集数据,通过数据来进行模型的训练,然后模型训练好之后就可以给它新的数据,比方说这个物体是苹果还是香蕉,在互联网有很多的工具,大家可以下载,都是开源的,可以随时使用,是非常直截了当的,只要你有一些基础编程的技能就可以来完成。
这边有一些原因说为什么这些工具对于工业检测并不是很好用,第一个挑战就是数据不足,大家可能会想工厂里边一定是有海量的数据可以使用,但实际上并不是这样,有的时候工厂里确实会有很多的数据,它可能会有几万个样本,但是其实99%都是正常的,我们需要的反而是这些非正常的数据,大家知道深度学习是必须给它喂平衡的数据,也就是合规的产品和非合规产品必须是50对50,这就是我们现在数据的问题,因为工厂里边有那么多的缺陷产品。第二个挑战在你做训练的时候,需要有人给这些数据打标签,这些是好的,这些是有缺陷的,这个是污点,这个是划痕等等,这个是很困难的。一个人可能一天会给一万个图片打标签,这个压力太大了。
第三个挑战就是工业的质控和检测,它的要求是非常严格的,包括假阳性和假阴性必须都是接近于零,人可能需要减少这样的一些错误的结果,所以为了避免出现漏检,即便是最小的一个缺陷他们都会认为这是不合格的产品,但是我们知道在质控当中,我们发现这些所谓的缺陷品绝大多数还是可以使用的,这些其实都会让工厂的管理人非常的痛苦,而且速度是非常重要的,我们需要在毫秒内完成它的检测,效率当然也是非常重要的,我们也需要做大量的训练,那我们不可能花好几个月的时间来训练一个模型,如果出现新的数据不能够从头再开始训练,你就只能够给它喂一个新的数据,然后期待它几分钟就能够学会,而且这个过程当中人的干预应该是最小化的,换句话说这就是为什么现在人工智能在处理工业检测这方面任务的时候是有很多挑战的,这并不像我们过去做的模型辨别图片是猫还是狗那么简单,对这些挑战大家如果对于这些技术是比较了解的话,这当然是很好的,这并不是每个人都能够完成的一个工作,我们首先要解决数据的问题,现在有很多的生成式的AI,包括GAN对抗式的AI现在有很多应用,我们可能会有一些新的生成式的方法,现在看到生成式AI是非常热的词,我们基本想法就是用生成式AI来创建一些合成的数据,使用合成数据再来训练模型,最开始的时候大家可能会认为为什么不做简单的事情,比方说这个图片我们就给它翻转加一些噪音等等,但是我们发现并不是很好用。
深度学习这些网络并没有大家想的那么蠢,它不会对这种简单的图片操作所欺骗,减少标签的成本,其实有很多的技术其中之一是自动的标签,比方说有一万个数据,有可能95%的是可以的,我们可能不需要人来过95%的这些图像,如果没有自动的标签的这些方法的话,它就可以进行一个90%的图片的分类,非常高的区间,只需要人类专家看剩下的10%,所以这个是非常有意义的。
另外还有一些别的功能,自动标签,另外还有标签助手,这个是一个很有趣的发明,大家可以看过meta这本书,就是把一切都分裂,它放一张图,然后它把这个图进行一个分解,还会继续进行一个分解,分的特别好,会有很多公司不断的来进行物品分类或者物品分组这样一个功能的开发,用非常快的速度就可以实现并且这个行业迭代速度很快,它的标准要求是非常高的,如果实现这个高精准度需要做几个情况,第一个是要用非常压缩的方式进行一个排列,第二要有足够的机器的训练,另外还有不同的技术,比如说导向性注意力学习,也就是要把机器人的注意力放在你想让它关注的地方,这一点很有趣,结果就是在线上找到它的边缘这一点很重要,很多的线是直的,但有很多的线是圆的,像半导体公司他们会使用这种基于规则的时间定义的AI,那么结果就是最近的一些深度学习的方法也做的很好,他们有时候比这些基于规则的AI效果还要好,也许未来不再需要这种基于规则的方法了。
另外还有一些数据的预处理的技巧,比如说图像的预处理,如果做一个CT扫描的话,想做高分辨率的话要花很长时间,但是在工业方面的使用却不能够等这么长时间,那么在工业上如果去进行图像的处理需要很快才行,有些手机有一些功能,自动拍一张图进行优化,如果在CT上使用这种自动处理的话是没有这样好的效果的,因为它对于噪点处理的逻辑不同。另外还有一个就是焦点,它也需要去把其中的一些噪点删掉,同时要保证焦点的锐利,这是一个视频监控以及一个检查的功能,我们可以看到它在不断的转,AI的机器人就用实时的方法进行一个残次品的识别,但是它也有同样的挑战,总的数据量不够大,贴标成本较高等等,这是一个智能监控的系统,不是只有一个摄像头这么件大,同时它进行数据的识别集成处理使用,是一个中央的系统。
总之系统必须要很轻盈,很快速,他们工厂的人不太喜欢GPU这种概念,他们喜欢一种灵敏使用轻盈的工具。刚才也讲过了算法,我们觉得算法对于这个工厂来说可能更加的重要,像机器学习操作,很多工厂的经理找到我说,深度学习应该是有前景的,但是我们总是有很多的人他们在生产线上,总是在检查很多的东西,然后我们获得了很多数据,是把这个数据拿回来进行再训练还是没有什么用的,所以我们认为对于数据来说不光是要进行数据,同时还应该对于表象进行监测,并且看一下改善的空间,然后看一下哪些数据应该可以再回到系统中进行模型的提升。所以之前的讲者对ChatGPT讲的非常的好,我们现在看到的是冰山一角,只是可见的应用层,之前我们也讲过像数据收集、数据处理以及SW平台,像并行处理等等以及HW平台、GPU、NPU等等。
下面简单介绍一下对于工业机器人的AI,我们都知道这张图,中国在工业机器人方面是遥遥领先的,甩开第二名很远,旁边展厅可以看到这些公司所有的产品,基本上都是同样的技术,大同小异,有什么变革呢?我们现在有了新的行业,新的应用,比如说有结构化和半结构化的环境,这里有一些案例,AI应用还是比较成功的,其中一个是机器手臂的抓取,用深度学习抓取进行训练。这个是数据训练的一个模式,工厂里边会有机器人24小时在工作,并且同时进行数据的抓取,它的效果非常的好。它是非常节约资源,并且节约人力的,有时候我觉得人的抓取学习和机器的抓取学习是完全不同的学习逻辑,也许他们能够更有效的抓取,同时对于编程方面也有一些挑战,我们应该想到更智能的一些编程的方法。另外像加强自主学习,增强学习,AI这种通过展示进行编程的方法也很好。我没有见过很多协作式机器人的案例,在过去几年它有上升的趋势,毫无疑问协作机器人是未来,目前主要的挑战就是找到正确的应用场景,他们对于撞击探测非常的敏感,如果有人的话它们会停止,比如它们在洗盘子或者怎么样,但是我觉得还有很长的路要走。
做一下总结,我们总是说大数据大数据,但我觉得主要的工业AI是数据量较小的问题,我觉得AI还是基于数据的一种应用,另外工业需要的是小的、轻盈的、快速的一些模式,但是目前的趋势是要把这个东西做的很大,它需要很大的资源密集型的基础的模式才行,另外我们需要得一个平衡,我们之前谈到过垂直LLM,比如小型语言的模型,只是精专于某一个垂直领域,我想强调的一点是行业经验非常的关键,不光是理解宏观上一个网络怎么运行,关于机器人现在越来越快进入大结构化和非结构化的结构里面,这里边硬件软件仍然有很长的路要走,而编程依然非常的困难,充分的利用AI的一些方法也需要我们进行改进,很多数据的要求是非常高的,这一点也形成了一个挑战。回到盈利性的公司他们追求的是投资回报,工厂的厂长是最后拍板的,他会有否决权。大家如果有更多话题的需求可以访问网站,谢谢。
福田敏男:非常感谢Frank Park先生的演讲,下面有请IEEE机器人与自动化学会主席(2018-2019),德国纽伦堡工业大学教授Wolfram Burgard,他也担任过丰田研究公司的副总裁,现在他主要聚焦在教学方面,他也担任过纽伦堡大学的管理岗位,他也获得过德国重要机器人领域的奖项,他今天给大家汇报的话题是移动机器人导航和自动驾驶的概率和深度学习技术。
Wolfram Burgard:非常感谢主持人的介绍,感谢主办方的邀请,很高兴再次来到中国,看到中国的发展还是日新月异,非常的欣喜,今天我来讲一下移动机器人导航自动驾驶概率和深度学习技术。
我一直在思考如何把这两种技术结合起来,这样我们就可以在两个交叉学科中获得最好的结合的结果,我们现在也在看到了很多基础性的模型,我们现在正在思考如何把他们进行更好的连接盒使用,想法不管是机器人还是AI,都是造出智能机器,智能机器可以了解他们的环境,感知他们的环境,并且我们可以建造出一些模型和一些应用来,这种就是所谓的感知反应的一个模式,这是一个自动驾驶汽车典型的基本元件,可以看到它的元件都是希望理解它周围的环境如何并且做出相应的反应,有一些把元件细分再分成子元件,但是主要的系统架构都是大同小异,可以看到有一些组件,一会我们会单独讲,我们思考的问题就是如何实现这些组件最好协同的效果以及最好的配合。
我们再看一下何为概率机器人,当我们谈到机器人学,AI我们需要去建立在一个数学的基础上,只有建立在数学基础上才能让AI模型更具智能化,这里是两个最基本的概率机器人学的问题,这也是多年来一直奠定概率机器人学的基础,概率机器人学也是基于制图、基于解读、定位,制图的意思就是对于环境进行一个基本的制图,定位是把自己车定在环境里面,这是一个自动驾驶汽车的模型,它是在执行一个定位的任务,通过迭代很多很多小时增强他对于定位的精度,才能去走到我们希望它走到位置,这是对于自动汽车,比如说如果未来想让它去接一个人或者运一个人的话会很重要。
这里就是我们需要自动驾驶汽车具备的一个功能,包括厂房里面的机器人需要具备的功能精准的定位,这是一辆11吨的重型汽车,我们是为库卡来开发的一个技术,您可以看到在这样的一个重型汽车反复导航的定位精度可以是以毫米为单位的,在动态环境当中精度也非常高,换句话说我们现在在导航任务当中的定位精度已经可以很好的满足,我们再来看一下制图,看环境的2D或者3D的地图,这个也需要满足定位的要求,背后有大量的数学计算和优化来做,类似的技术也可以放到深度网络的算法当中去。
关于这样的技术我们可以做一个3D的模型,这是一家小的初创公司做的技术,他们专长于建筑的三维重建,这是我们几年前做的一个建筑的重建,您可以看到这是比萨斜塔整体的重建,我们在视频当中看到,可以通过俯视和不同的视角看到比萨斜塔内部和外部的结构,这个状态下就允许我们通过雷达和其他的一些感知的设备来充分的重现比萨斜塔,甚至可以把它做成剖面图,这个对于这样一些文化遗产都是非常有价值的,当然在其他的地产项目当中也是如此,我们在这里也可以看到这是一个大教堂的最准确的3D模型,这是弗雷堡大教堂非常精确的模型,它也是一个世界文化遗产,我们就可以精准的记录大教堂的结构,并且在未来出现损坏的时候可以进行相应的修复。所以这方面我们并不仅仅考虑到它带自动驾驶上的应用,在其他领域会有很多的应用,基础的数据结构也是非常重要的,这是我们最基本自动驾驶当中的高清地图,在上层视频当中包括具体的定位,但是在下面也包括有不同的剖面,可以让我们在这个环境当中相应的来进行路径的规划和驾驶的一个操作,那么在下面我们也可以看到更多的接近于地面的一些信息,比方说其他的一些车辆或者是行人来感知之后就可以做出更好的决策,这样一些地图也是很重要的技术,帮助我们实现很多其他的功能,那尤其考虑到我们一个动态的环境路上的阻碍是非常重要的,它其实是购买起来成本很高,与此同时它总是需要变化的。
这边是我的同事拍摄的一段视频,可以看到当时因为当地下了一场雪,导致路面被积水覆盖,这个车它之前所依赖的地图,因为辨别不出来路上的这些标记,导致自动驾驶功能的失效,所以大家可能会理解这样的一些高清地图对于自动驾驶非常重要,但是它也是存在很多问题的。我们的问题就是怎样解决它背后的情况,我们在这里应用的基本方法就是深度学习,之前发言嘉宾也提到了深度学习,这种方法对于解读是非常重要的,尤其是这个问题,我们如何来理解感知你周围的世界,这是另外的一个案例。可以看到自动驾驶汽车、传感器如何来解读它的数据,这个叫做语义分割和全景全景,我们不仅仅可以看到不同的问题,也可以把它辨别为不同的目标。
另外全景跟踪几年之前我们就在提及这个问题,现在基于传感器的数据,这个时候车辆通过激光雷达和其他摄像头的扫描,我们是可以全景的了解周边的环境,这是有大量数据点,会有很多种不同的任务,第一个就是所谓的语义分割的任务,大家在这里对于所也的点要把它分配给一个类别,这里可能会有一些无实例的推理,看到一个物体你觉得它像一辆车,但是它跟你之前的数据不匹配,要进行推理才能完成语义的分割,这个并不容易,所以我们在下面使用另外一个方法实例的分割,是比较昂贵的,需要大量的数据,但是它在设计起来是非常的困难,才能够让这样一个网络完成无实力和无定型驱力的,最终完成我们的全景分割,昨天有一位嘉宾提及我们需要新的架构,需要发明新的架构,才能够更好组织这样一些数据集,这个架构的设计并不容易,这也是我们深度学习领域一项挑战,并不仅仅获得相应的数据和其标签,还需要为数据搭建一个合适的架构,这就是在这样一个背景之下所应用的架构,来完成全景分割的人物。
通过这个我们可以根据激光雷达的数据进行高效全景的图像分割,如果你现在做的更好的话,我们就可以很好的来获得他相应的一些结果,我们就可以接近百分之的假阳性或者加阴性的结果,这个是很必要的。但是这种语义的分割也有一个劣势,大家在之前的图像当中也可以看到,这个视频它是一帧一帧的,随着时间的推移,每帧图像都不一样,在时间上并不具备一致性,可能会有行人过马路,是同一个人,但是他会在每一帧出现在不同的位置,我们就可以以此来预测他的速度并且来操作自动驾驶的汽车,这也是我们更好的理解这个全景图像的第一步,我们也需要把时间的一致性考量进去。我们在这里过去做过一些多任务跟踪的工作,我们想法是把这来个方式结合起来,做到一个时间上一致的帧分割的结果,这个叫做多目标的全景跟踪,这是另外的一篇论文MOPT,几年前发布的,我们也是在针对这个目标做了研究。即便我们可能是非常看重这一点,但是可能很快的就完成了它的全景的跟踪,但是它仍然是非常重要的一个领域,可能会需要有很长的时间来处理,如果你很幸运的话,你可以很快发现合适的方法,但是典型情况下这些领域我们的进展并不迅速,所以这里可能是有一些相应的领域或者是区域,你可能是花好几周的时间才找到更好的方法。
我们在这里也可以做一些视觉和激光雷达的结合,这边是我们的结果,大家可以看到我们在车辆的时间一致性上,仍然会有一些小的误差,但是这已经是我们最近可以做到的一个进步了,我们可以更好来跟踪周边的物体,在激光雷达上大家可以看到它的全景跟踪,我们可以看到同一辆车在不同帧是标了同样的颜色,换句话说我们能分辨出这是同一辆车在不同时间点当中的位置,我们对于这样一些深度学习的分子可以得到非常了不起的结果,而且从概率机器人学这边也可以得到很好的结果,这两者往往是互补的,指的是概率学和深度学习,所以我们可以找到去种方式把这两种方法有机的结合起来,考虑到我们概率学在这样的架构之下,可能是需要让深度学习为你提供更好的不确定性的控制,然后把这个不确定性输入这一些上面的等式当中,换句话说我们可能会需要一个更好的方法,允许我们来引入概率学的方法,把它和整体的机器人的特征结合到一起,这是我们的想法。
我在这里给大家举一个案例,首先是经过校准概率的生成,需要有使用的技巧,最后是没有最大值的自变亮点集,这是具有不确定性的感知的全景分割,大家在这里可以看到,我们也可以实现这样一个全景分割,你的网络并不仅仅要生成语义和其解读,还需要保留一定的不确定性,比方说这里的语义,大家看到在不同类别的边格,比如在道路和人行道之间会有这样比较模糊的线,这是我们留了一定的不确定性,这也是车辆需要来处理的一个问题,我们也可以用同样的方式来万相应的全景分割。
这里就是我们现在面临最重要的一个问题,我们现在真正能够打造一个结合两种方法论的机器人,在这过程当中我们也是要更好的集合这样的一个概率学和全景语义分析的结果,另外一个方面就是要进一步超越这一点,我们在考虑真的需要这样高清的地图,因为我们如果可以更好的来解读这个世界的话,我们就不需要地图就那么高的清晰度,当然这也是更具挑战的,我们现在在计算机视觉这个领域有很多人在努力解决一些语义分割的问题,所以我们来看这个问题,我们可能会需要学习一些拓扑结构,也就是从传感器制成地图的拓扑结构,这是道路的一个以情况,右侧是我们需要了解到道路当中的一些结构,这是非一重要的,因为最终这样的一些拓扑结构可以帮助我们更好的理解,比方说哪里会有一些路口,什么时候需要转弯,我们怎样让地图的管理团队更好的理解路口的一些拓扑结构,让车辆能够更好的导航通过路,这个是对于自动驾驶汽车的成本有很大的好处。
我们在这里定义的是一个深度的网络来完成这样的任务,这个其实是有一些比较简单的路口我们做了很多的研究,当然更复杂的也是可以给出非常好的定性的结果,这样的方法我们可以推理出这样一个地图,至少可以了解他相应的一个概率,我们在这里是不需要真正让人类打标签是非常重要的。所以这里又提出了一个重要的问题,我们确实需要重新训练模型,过去几年这方面有大量的讨论,我们在这里也提及,在不需要专门标记的情况下进行导航,这一点也是很有趣的,我们发现说现在基础模型和语言模型也是变得更加的热衷,我们在这里有很多的可视语言图形的模型,我们也是跟中国清华大学的一名学生一起来工作,他在我之前的团队里面做了很多的贡献。他就这个问题做了大量的研究,怎样让机器人更好的理解环境,这个是基于一些几何,自动驾驶、自动导航,可以看到这里面使用的一些几何推理,通过这个语言模型我们可以使用它的一些解读能力。比如说让机器人更好的能够理解周围的世界,比如说告诉机器人说去走到椅子右边或者走多少米等等,那么这个实际上是对于一个博士的项目来说是非常有趣的。
我们使用这种大语言模型,加强它的导航,也就是使用这种语义学,本身它是没有这样的一个移动的方案的,但是可以用这种语言辅助的方式加强它的导航。实际上我们经常考虑是如何在工业应用的场景中让机器人更好的进行导航,几个月前在底特律我们开过一个会,就是看如何去使用基础的建模,用语义学的知识能够定位车辆,一会儿会给大家看一下这里的研究成果,这个项目叫做SLA项目,我们可以更好的将房间里边的定位做的更加的精准,同时可以优化很多的像素,可以看到在这里是一个厨房,这种方法实际上比基于图片的识别更加的精准,这个时候就有点像ChatGPT的赋能。我们甚至可以告诉机器人更多的聚焦在哪里,另外我们还有一个功能叫做地标学习,比如说所有的东西都挂在墙上,但是总有一个东西是最重要的。好的,就讲这么多,这是一个非常令人激动的领域,我们有很多令人激动的技术,像自动驾驶汽车等等,现在的挑战是把不同的机器,不同的技术融合在一起,这种概率机器人学以及概率状态的估算我们相信会在未来的融合里面起到巨大的作用,这一点非常让我们激动,谢谢大家。
福田敏男:非常感谢Wolfram Burgard教授精彩的演讲,下面有请新加坡工程院院士Ben M. Chen,做四25年教职工作,现在担任香港中文大学教授,他的专长在自动驾驶、自动控制,也是系统研究的一个专家。
Ben M. Chen:非常感谢您的介绍,今天我简单介绍一下我们最近在做的一个项目叫同济飞鱼,这个做了好多年了,就像刚才有的嘉宾讲的,只要走过的路都有留下的痕迹,所以我可能还会切到在新加坡国立大学做的一些事情。
这是我在同济飞鱼这个项目里面的合作者,首先我们为什么叫同济飞鱼,因为是跟同济大学原来的校长陈杰院士的团队一起合作做方面的工作,参与这个工作还有北理工的窦丽华老师,南航王彪老师,武汉大学高智老师,浙江大学任沁老师,鹏城实验室崔金强老师,同济大学丁玉隆教授,我们同济飞鱼自己团队里面叫飞天小乌龟,这是我的报告提纲,我会稍微介绍一下同济飞鱼,同时介绍一下我们团队做的一些其他跟水栖相关的无人飞机,我是主要做无人机,大家看到的视频就是中央电视台前不久播的有关同济飞鱼的视频。
本人做无人机到现在已经有20年左右时间,所以我们会涉及到一些稀奇古怪的无人机,有固定翼的飞机,还有普翼的飞机,最下面那一行是翔翼飞机,最后一个是非常小的直升飞机,而且也是非常贵的直升飞机,那架直升飞机售价是80万美金,非卖品。我们原来在新加坡国立大学做了一些工作,看一个视频,这是一个固定翼的飞机但是它可以垂直起降,我截了一小段的视频,这个视频其实不是非常完整,如果把固定翼飞机改成旋翼飞机,它可以做更多,而且还是更长,它在空中可以从旋体的状态变成固定翼飞机,我可能会让这个视频放一段时间,因为它接下来可以做一些很多飞机做不了的事情,这个又是从固定翼变成旋翼的阶段,因为它是固定翼可以做一些旋翼飞机做不了的事情,这是非常有意思的片段,而且这个视频已经让新加坡国防部出价100万美元,让我们继续往前走,这是我们当时做的不是非常常规的无人机系统。
现在切到我们说的水空无人飞行器,也有不少的尝试,现在画面上看到的大部分是由美国、加拿大一些学校做的,其中也有上海交通大学做的,都不是非常长久,新加坡国立大学团队差不多七八年前,第一个图像就是当时尝试的结果,最近有很多报告跟这相关的工作,包括西方的、国内的,香港的都有报道,我现在放的视频就是我们最近刚刚航拍的一些飞机的结果。它其实可以在空中飞,也可以在水底下飞,说它游泳也行,飞行也行,它可以做一些其他无人系统不能做的事情,它在水底下是用了另外一套的推进系统,它也是经过优化迭代过,包括它浮在水面上的,这个其实是一个挺难的一些技术难关,可以从水面、水底浮到水面继续变成一个正常的无人机,这个就是我们所说的同济飞鱼或者是飞天小乌龟。
这是我们的机械设计,就是推进器的系统,我们是通过一些优化的步骤,包括水底下也需要优化,空中也需要优化,因为它毕竟是在两个媒介中不同的媒介中的工作,所以说其实有一些比较复杂的机械系统,我就不仔细说了,给大家简单介绍一下。
这是我们用了一些马达齿轮,一个是为了控制无人机飞行,一个是水下模式,因为时间不是很多,所以我们做了很多这方面的测试,我们的设计比刚才大家看到的设计好了很多,因为我们飞行的非常稳定,所以这个是我们的机械设计方面,这是我们的航电系统,航电系统跟其他飞行系统都差不多,其实就是多一些水下的传感器,其他都差不多,空中就是用GPS,我们也会搭载相机,可以用视觉定位这方面的工作。这是建模,有点太数学了,我可能就把这个建模的部分省掉,因为我们最近在同济参加智能自主无人研究开始搭建这方面的设备,但是目前我们并没有硬件去做很精确的测量,所以就用了一些替代的方法。其中有包括空中跟水下的,空中的跟其他的飞机都差不太多,困难的部分主要是在水底下。这是我们有CFD作为一个替代的方案,得到了比较精准的模型,这个是一些迭代的过程。
最后我们得到一些参数,这些参数虽然不是非常精准,但是这些参数我们觉得足够让我们去设计下一步控制这个无人机的控制系统或者做其他的事情,只是一些比较初步的结果,但是我们其实也会在具体计划这方面的工作,我们还会在这方面,如果设备齐全的话,还会在这方面做更多的事情,以达到更精益求精对整个硬件的系统进行再优化,特别是现在大家看到的是飞天小乌龟,我们让它可以做一些解决实际问题的功能。
这是我自己一直用的框架,其实我们现在所做的很多无人系统,甚至是机器人它做的任务都差不多,大家现在看到的就是我们的小乌龟站在那个位置,其实它是被控系统,所以下面我们想做的事情就是怎么控制它,控制这个小乌龟并不难,就是用我们的一些简单的控制方法,其实是可以搞定,但是在水下最难的是定位系统,定位构图,如果再上层一点,像任务规划、运动规划这方面是相对容易一点,我们会应用无人系统做一些我们想做事情。
这是我们做的控制方面,因为这个设备有点不太完善,大部分时间是直接拉到实际场景去测试,现在大家看到会动的是在香港中文大学旁边的沙田海,我们就是直接拿到海里面去测试,这个定位系统目前来说是为我们控制这个系统做,所以右下角大家看到的是飞机自动被控的过程,其实它会跟踪一些轨迹,所以说对控制方面目前我们进行的还挺好,但是对整体的定位系统,在比较复杂,水下视觉不好的情况下是相当困难的。
现在介绍我的合作者,这架飞机不会撞到水底下,但是它可以在恶劣的环境下,在水面上工作。现在大家看到的画面是在台风快来的时候做的测试,它可以从水面上起飞跟降落,所以这种飞机它要来测试,可以测水下的鱼群,所以这个是其中的一款飞机。我再介绍一下我们在中大所做的冲浪板,这个冲浪板本来是有人坐在上面,但是我们想把它改进变成无人系统,它的好处是它的航时时间比较长,也比较快,正情况下一个80公斤的人在上面是可以行动自如的,续航也非常长,我们在中大附近沙田海做了实际的测试。上面是两个相机,一个是装在冲浪板上面,一个装在冲浪板下面。
接下来这个视频非常有意思,这个也不是我们想做的,我们既然把冲浪板变成潜水艇,我们不知道它为什么钻到水里面,而且还会正常的工作,这个是我们下面要做的事情,这也是在沙田海旁边做的,大家可以看到后面是李嘉诚的观音,但是它会转出来,我们原来以为它会没了,所以这是我们下面需要做的事情。
下面说一下我们做这些东西是为了这些潜在的应用,比如说水下做探测,看看鱼,看看珊瑚,或者是做一些搜救的工作,因为我们原来做的飞机就是为了搜寻,因为飞机它的机动性比较强,冲浪板是为了救援,因为它比较大,可以载很多救援物资。我顺便花一点时间做一个广告,因为我明天还有一个演讲,用无人系统做inspection方面的工作,下面还有一个视频给大家看一下我们在做什么。这是我们整个团队,我们主要是用无人机做应用,这是一个实际的老街,我们用多架飞机在做这方面的测试,全自主的检测,这个飞机是不需要人控制,我们的强项是运动,这是做(英文),这是在福建的一个土楼,我们再把这个3D模型变成一个mode,后面可以做很多事情,明天如果你们有兴趣,我会对这方面有一个非常详细的报告,这个是我们的团队,前不久得到的最佳论文奖。
我最后想用老子的一句话结束我今天的演讲,图难于其易,图大于其细,谢谢大家!
福田敏男:非常感谢Ben M. Chen教授精彩的发言,下面有请德国奥尔登堡大学教授Sergej Fatikow,他之前是在俄罗斯乌法国家航空技术大学,1990年就任于德国卡尔斯鲁厄大学,在那里开启了飞行机器人的新研究领域,今年他成为卡塞尔大学的教授,在这之后他在奥尔登堡大学成立了一个新的微机器人与控制工程部,他曾经发表了多篇著作和期刊论文。
Sergej Fatikow:大家好!非常荣幸今天在此发言,非常感谢主办方的邀请,也特别感谢本地的这一群年轻人的主办团队,他们为我们做了非常周到的接待和安排,非常感谢,今天我跟大家分享的主题是纳米级机器人操纵与应用。
首先跟大家做一个纳米机器人简单的定义,现在绝大多数人对于纳米机器人到底是什么可能并不是很确定,纳米机器人是一种新的科学,它是从上世纪90年代开始研究的,我们主要研究的是小型的机器人来做一些执行感知、设计和制造,来完成一些小维度物理的问题,这些小的维度会有很多很细微的操作问题,我们也必须要考虑到一些新的机器人的方法。我们普通的机器学和纳米机器学之前并没有非常明显的区分。
为什么要把机器人做的这么小呢?这是我们经常遇到的一个问题,因为我们需要执行相应的一个低维度的任务,就是这么简单,这边有一个很简单的案例,比方说我们就可以把一个微型机器人放入人体内,就必须把机器人系统做足够小,这个机器人到底要多小呢,这是一个重要的问题,这里我们要知道我们并不是在竞争到底能把机器人做到多小,这并不是我们的重点,我们的重点是用最高效的方式完成相应的任务,比方从我的实验室当中,我们也是在做放到吸尘器里面这些很小的一些机器人,整个内腔大约就是20、30厘米大小,所以我们的及其必须要在内腔当中工作,必须要把它设计的越小越好。
给大家提供简单纳米的分类,我们首先要知道在应用的背后最重要的特征是什么,主要是有两个方向,第一个方向就是定位的高精度,定位高精度就意味着你必须要让机器人能够定位在非常高的精度,纳米级的一个精度,这好像是我们实验室正在专注的一个领域,这是种高精度的一个纳米机器人,这是我们的一个研究社群专注的重点,另外一个重要的方向就是移动的纳米机器人,这个机器人必须能够长距离的移动。比方说我之前也提及了我们需要在人体内做一些操作,相对应于我们机器人的大小它们在人体内移动的距离是很长的。
我们已经有了很多的应用案例,在左边可以看到是高精度微型机器人自动的纳米级的处理,同时还可以进行一些纳米或者生物材料的表征以及细胞手术以及3D组装等等,在右边可以看到是移动型的微机器人的应用,比如说靶向、医疗、超小型药片、体内机器人技术、空中机器人、水下监测等等。现在是非常好的机会,感谢一下我们研究团队的所有成员,这是我们在欧洲、德国工作实验室的人员。
动机,我们经常遇到一些难点,最大的推动这种高精度的微机器人的动力来自于哪里呢,这是个奇怪的问题,我们如果问大家常规的工业机器人的动机是什么,为什么要做这个研究,为什么要用机器替代人,实现全自动化的工厂,每个人都知道优点是可靠性、重复性、低成本、高生产力以及人们可能不愿意做这些无聊的工作,还有一点就是人们可能无法做的一些工作,我们不擅长的工作是需要机器人去完成。所以我觉得纳米或者微机器人有同样背后的一个原因,为什么要做纳米级的3D影像,为什么要做这样的一个系统,想要做纳米级的3D的成像以及进去操作一些事情,必须要由机器人实现,这个人是做不了的,我觉得人类无法做的一些任务正是纳米机器人背后最主要发展的动机。
另外在纳米机器人这么小的尺度上做动作的一个操作以及物品的抓取是非常困难的,为什么这么多年进步不大?是因为挑战实在是太大了,大家可能还记得,第一次工业机器人使用上市的时候,从那以后所有的人都在很努力在推动着工业机器人的发展,但是它的理念实际没有变化,只是技术上不断的创新,现在终于能够把机器人小型化。刚才我们已经谈到了纳米技术,目前已经从2D转化成了3D的集成,3D可以把不同的组件、不同的功能、不同的特点集成在一个机器人上,这样可以用纳米级的尺寸进行可靠的3D的操作,尤其是纳米级的材料。
我们说这个操作或者机械手的时候,我们讲的是非常小的层面的组装,非常小的层面的表征,非常小的层面的结构设计、生产制造、测量以及所有类型小的操作。因为人是难以实现的,我们唯一实现的办法就是使用一些机械的手段,使用机器学的做法,做人类无法做的一些事情。另外这种纳米级的机器人是一种赋能性的技术,它可以使很多基于纳米级的行业能够发展,我们认为中国有非常大的潜力,今天我们也是在中国召开2023世界机器人大会,中国有非常多的,并且越来越多的研究实验室在致力于进行纳米机器人、微机器人的研究。20年前中国没有任何一家实验室做类似的研究,但是现在中国在这方面的发展非常的迅速。
我们实验室做的一些工作,我们主要是做纳米级的自动化,机械、电器等等方面的设计,具体的生产是由外部生产工厂去实现的,现在大家可以在市面上买到由我们实验室设计的这些产品,纳米级的自动化操作是纳米行业工业个基础,这也是整个行业的一个关键,一会给大家看一下例子,就是我们现实中使用的,我们非常骄傲的就是我们团队中有剥离出来一些成功的创业企业,这是我们实验室的一些博士生,他们做出了很好的研究,又剥离出来自己成立了公司。其中一家已经有了300的人员,他们在中国也设立了自己的办公室和实验室,之前日本讲者也讲过他们的一些研究,2016年开始的叫MARSS的研究,这也是他们的旗舰项目,另外和浙江大学我们共同做一些研究,都是纳米级的自动化机器人,所以对于中国的同事们这是一个好消息,就是MARSS大会将第一次在中国召开,浙江大学会作为中国的主办方,MARSS大会是从2016年开始的。
这种独一无二的器械是非常多的功能的一个整合体,它有非常高解析度的传感器,可以达到纳米级或者次纳米级的一个水平,纳米级的成像可以达到三纳米,同时它还可以用在很多的场景里面,比如说一些绑定、操作或者是测量、表征,包括自动的检修、检测或者维护等等,在我们进行思考和研究的时候,我们希望能够把所有这些功能能够集合在一个很小的空间里,这是我们实验室的一角。大家可以看到这里面集成了很多的功能,比如说生产,比如说操作、拾取,比如说实时的监测等等。我们可以通过使用FIB系统、AFM系统以及EBID系统进行生产,用机器人、AFM进行物品的抓取和操作,同时还有SEM、AFM、FIB的系统进行实时的传感。
谈到自动化的时候,这是我们自动化一个整体的设计,可以看到用一些显微镜可以进行信息的抓取,图片的捕获,然后信息传到系统里面,机器人产生指令,人们给机器人指令,让他对一些做法进行反应,会实时进行反馈。如果整个的反馈流程越快的话,就证明他的效率会越高,会越准确。我们实验室还会对目前的一些应用进行研究,并且选取最适合工业使用和具有研究前景的,我们众多的潜在项目里面也是要看行业和实验室的研究需要什么,再选取我们要重点投入的项目。因为我们不光是要考虑自己的兴趣和自己想做什么样的研究,更要考虑和行业以及研究怎么去接轨。
明天我会在技术论坛上有一个分享,到时候大家也可以参加。我们这些技术主要都是一些赋能的技术,我们也是会希望帮助到行业或者其他的一些研究人员去做他们的事情,我们实验室做的一些很简单的做法,也许别的实验室来说这些做法并不容易。大家可以看到这是一种非常可靠的纳米级的操作,经常是对一些行业来说或者一些实验室来说是他们研究和操作的瓶颈,在德国的奥尔登堡大学里面我们有一个非常大的实验室,这个实验室是光子结构3D建模的系统,用这种光子架构的3D建模我们可以对很多的材料进行分析,同时我们也把我们的技术应用在其他的领域,这是自动化的一个案例。我们在这次自动化的应用中它是百分之百的成功率,可以完成一百个捡起和放置的循环。
我们还有另外一个研究是3D的纳米组装,把所有刚才谈到的功能集成在一起,比如说BIM系统、机器人技术、纳米科技,可以在纳米级的层面对于这些连接的颗粒进行组装式的操作,我们也可以用离子光束进行定位,进行组装的操作。也就是用一层一层的纳米的结构,完成之后再完成下一层纳米材料的组装,一层一层的叠加,最终完成一个纳米级的3D的一个架构,这个是在纳米制造方面非常重要的一个应用。如果在一个材料中有不同类型的材料的话,那么根据不同纳米的形状可以去除一些我们不想要的颗粒和材料。
另外我们的实验室还有一个工作就是对于液态金属进行纳米级的操作,就是它的纳米金属液态水滴,我们使用的电子迁移的技术,在这个电子迁移的技术上我们是将生产拾取放置等等操作结合在一起,我们可以直接与这种液态金属的储存去接触点击,采集里面的液态金属滴,对液态金属滴进行检测和操作,另外一个应用是粘连度的测量,也就是去研究纳米级的工程方面一个颗粒或者这样一个金属滴它在另外一个表面粘接的特征,就是看在不同质地的表面同样的液滴是强还是弱的粘接性,我们同样使用SDM的系统。
这个是我们来做的一些探头,大家有些人可能对他是比较熟悉的,这种技术的劣势就是如果你现在没有办法让你的胶体的探头很好的接触相应表面就会出现一个问题,所以我们现在就需要增加它的表面摩擦力,这样才能更好的捕捉它的情况,这个时候我们在制造相应的探头的时候,一定要提高它的敏感性,才能让胶体的探针做到我们想要的目的,我们在这里是加工了一些商业可用易散的探头,然后把它放到我们的电视探测的环境当中,这样子就能够更好的获得它的结果,目前的结果都是很合适的,我们也通过建模正在做更多探测的技术,也希望未来跟更多的企业来分享成果。
最后总结一下,我希望回溯到我们两天前世界机器人大会的开幕式上,在会上我们当时提到了工业机器人被认为是非常可靠的一个系统,所以我希望跟大家分享的信息,现在在研发的社群当中有着快速发展的研究工作,是关于更可靠的机器人辅助的系统,而且我们将会精确到纳米级,谢谢大家。
福田敏男:非常感谢Sergej Fatikow教授,下面请日本千叶工业大学王志东教授,他是1995年加入了东北大学的智能机器人实验室,担任助理和副教授,2006年加入了千叶工业大学先进机器人系,过去这几年他也担任了IEEE机器人与自动化学委员会管理委员,下面交给王志东博士发言。
王志东:非常感谢福田敏男教授的介绍,也特别感谢各位留到现在,让我完成午餐前的最后一个演讲,因为绝大多数的观众能够听懂中文,而且我们今天也有百度AI很好的翻译技术,我就用中文分享我下面的演讲。
机器人的控制特别是在大规模不确定因素下的控制,这个工作有一半是我原来在日本东北大学做的内容,这个是我在20年前加入了(英文),我和他一起工作了6年,在里头做了一些协调机器人和人机交互的工作,之后我们也做了一些(英文),给大家进行一下汇报。
大家在AI的会议都有一个说法,谁是最后的AI player,谁就能控制所有社会的财富,所有社会的智能,所有社会的系统,我们作为机器人来说,谁是最后一个robot takes developer,所以我们能够取得所有的东西,这个是一个很有意思的东西。5年前我有一次在坐飞机看到纽约杂志,上面的标题就是机器人将来会制约所有的人,人在上面讨钱,这是我们将来的生活。其实在十多年前在日本有这个漫画,所有机器人将来是协调的人,让人和机器人进行共同生活,能得到更好的生活,围绕这个我们也无做了很多研究。特别是现在库卡机器人进行协调控制,已经超越人类能做的东西,我绝对做不到三个手动这个东西,这个来源于很先进的控制技术,最优化的运动、规划和高performance和传感器系统,但这个东西对我们人来说只是一个优势,所以到现在这十多年我们有很多新的机器人系统已经走向了社会,比如说物流、医疗机器人、DJI,这些给整个系统提供了很大的Value-chain,他们已经在产业上得到了实现,但是我们可以看到现在有很多研究(英文),这些内容也有很大研究的经历,有一个5年前觉得很有魅力的一个机器人系统,人机交互的(英文)robot,现在已经(英文),当我们这样想的时候为什么,它没有联系到Value -chain,还有另外一个问题,在联系到Value -chain之外我们还要想怎么把这个系统能做到对付更多更强的实际社会的不确定因素上面去,特别是(英文)这个东西已经干了10年了,Frank他们最早提出这个(英文),瞄着这个方向走,现在已经开始有不同的方向,所以对我们来讲,这是有非常大的机会。
(英文)这个是现在很多机器人都在下力气的方面,做的最好的iRobot他把整个系统压的很低,但是他很好的解决这个问题,这是解决设定的问题,可以看到不确定因素和(英文)不一样,不可能由控制解决这个问题,我们还会面临更大的问题,比如你要把机器人带入你的厨房,你夫人肯定会很高兴,这个对机器人来说是非常大的。我很喜欢这张照片,这是每年到夏天的时候,日本都有一些过节,很多人扛一个两吨到三吨的神架,大家一起在动,有些东西走的很快,这些人之间没有(英文),都是独立的运动,这些协调怎么实现这个东西,怎么推断别人,所以从这个我们在想,如果要理解人的意图,和他进行协调,这是今后机器人非常具有挑战的内容。
我跟大家分享三个感想,一个我们在战略上怎么能够处理这些不确定因素,同时在(英文)不是最优化的,所以我先介绍一下我们以前的工作,我们做的协调控制里面是不知道这个物体的东西是什么样的质量重量,没有机器人之间的(英文),也没有(英文),这个是二十年前的实验,到现在为止是我最喜欢的实验结果,这里头有两个,从视频上看不出来两个轮子谁先动谁后动,为什么能做到这个东西,其实这两个机器人之间只是用简单的一个手臂抓住这个东西,中间是一个泡沫板,所以你要把一个80公斤的机器人在两米以外拖动的话,产生的力是非常大,但是这个东西我们再的非常好,非常同步,其实在demo上面卡斯洛先生提出了很有意思的内容,把每个机器人的手做了一个(英文)在里面,可以知道自己的误差,但自己的误差并不等于协调最好的,他不光把自己误差加进去,同时也把对方的误差加进去了,所以才达到了这个协调。之后我们又用到人机上面,因为在这上面人里头有一些(英文),做的不像机器人这么规范化,也没有很强的(英文)的设置,同时你也可以换推动地,这里用了一个(英文)的想法。
延长到这个上面之后,我们就开始做了一些研究,人的意图的推断,这里当时选的是一个舞蹈机器人的协调,这个舞蹈机器人在17年前是比较新的,相当于智能化的机器人系统,有简单的知识库,同时还有一些(英文),当然学生不会跳舞了,有的学生跳的比较漂亮,有的学生跳的像走路一样,跳舞这个东西我们做机器人主要是,男生是引导跳舞的,女生是跟着推断怎么跳,所以我们做的是推断机器人,女生的机器人。同时(英文)他们所有的动作,做了一个控制器在里面,你给了一个力,通过(英文)就可以产生运动,能实现各种各样的,当时我们最开使用(英文),后来转为用(英文),得了一个结果,当时把这个东西打出去了,后来日本教授说你这个学生连统计都不会做,应该把平均和分差做出来,当时我赶紧举手,我说这个稍微有点不一样,我们如果做产品的话,肯定是平均分差,但是我们现在(英文)的是一个人,每个人有不同的(英文),所以他得到的结果,有的人分高,有的人分低,这是将来我们必须要注意任何机器人的协调控制,你在什么地方推机器人它都可以走,另外一个是舞蹈的动作,当男生给它一个力的时候,女机器人就可以推断你是什么动作,当时我记得我们在做这个的时候,朋友就问王老师你只是推着她在走吗,这个机器人的体重有120公斤,相当于相扑运动推着走是相当厉害,但是这个东西还是有很强的协调在里面,所以这些东西引导我们走了新的研究方向,主要是要捕捉人的动作,因为大家现在在谷歌和百度用他们的地图,这些地图可以提供很多情报,在机器人的行业,把这个技术结合起来,我们应该能够对很多的环境进行(英文),但光对环境(英文)应该是不够的,所以同时我们对人的动作进行了(英文),当然人的动作和环境不是走一圈就能行的,你要不断的搜取,人的动作就可以得出一些数据,把它放到(英文)环境里面去,初期的时候是一个轨迹。
这个是(英文)的系统,包括怎么用差分的方法来推断它在什么地方走路的姿态,这样可以通过机械学习能推断它大致在什么环境,走路的意图如何,之后现在(英文)出来以后,包括我们可以应用很多东西推断人,这个是他在用计算机还是在开冰箱,都可以推断出来,当然这不是百分之百对。
接下来我讲(英文),我们曾经用控制做过(英文)的想法,AFM是用来测量位置的,也可以进行各种各样的(英文),所以我们做了(英文)的想法,因为AFM当然也可以做两个,非常贵,一个在推的时候有很多不确定性因素,特别是(英文)不确定性因素越来越大,推的时候不可能(英文),如果我用两个或者多个(英文)的时候可以推着它走的(英文),像孙悟空跑不出如来佛的手心,所以我们做了一些模型,基本的训练,这样可以用(英文)的想法实现了这个推断的运动模型,(英文)它的动作,左边是一个(英文)的结果,右边是实践结果,通过(英文)进行实际的推断,得到非常好的推断的结果出来。
这是一个总体的,包括做各种各样的形状,通过建一个圈形的,图中没有任何(英文),这个东西在(英文)上面是一个非常大的影响,所以我们通过(英文)能达到非常稳定的。当时我做另外一个工作主要是caging,就是罩住这个不让它跑掉,这个法在我们日常生活,你抓什么东西的时候都有一个过程,这个过程当时我们最开始用在移动机器人研究上面,因为移动机器人不可能做(英文),所以我们当时用caging方法对它进行(英文),后来2015年我就跟夏威夷大学的(英文)先生一起做(英文)系统,因为他可以用(英文)制出(英文)对细胞进行操纵,但是(英文)有个好处,这样对身体的影响非常的有效,但是(英文)因为能量不断会注入,会变化大小,所以直接的控制还是比较难,所以我们就通过定位,进行一些操作,同时在一些(英文)上面可以做一些caging的工作,如果有不确定因素的情况下,能达到比较高效的(英文)的工作。
最近我做了一个(英文)Caging,怎么让这个东西不要逃出你的手心,我们做的研究主要是把它(英文),形状非常复杂,非常精细,所以你可以看出来要判断这个东西是Caging(英文),主要是看它是不是有通道到外面,这个东西对我们还是比较(英文)的东西,在(英文)很复杂的环境下计算这个东西,当时我们就提出了一种方案,把这个东西再(英文),我们叫CC space,两次把这个运动变成了(英文)的系统,在这里之前计算完一个(英文)以后,我们就可以很简单的判断,用一维的判断,实现它自己能不能Caging的判断,所以这个东西不光是(英文),任何的(英文)都进行计算。
左边是一个实验,右边是通过在Caging情况下,怎么能够不要抓取,但同时实现稳定的(英文),因为它有一些(英文)可以利用,这个我们刚写完论文,有一部分已经投入到(英文),我们希望在比较容易破碎或者不容易得到精确模型的情况下,可以通过这个方法来实现比较高性质的(英文),包括三维的。
我们做了很多系统,主要瞄的不是(英文),大家可以想想,我们在机器人上面都一直在追求最优化,我用谷歌查任何一个机器人他会给你70万个结果,其实没有任何人找70万个结果,AI能做的给,他做不了的不给你,这是他成功的点,他搞了一个(英文),这样可以达到最高的目的,将来怎么把它合在一块,能够达到目的,这是我们的目标。还有一个问题,大家可以一起想想,我们将来有很多自行车,不优化情况下,多样化重不重要,作为机器人不是最优化的情况下,多样化怎么呈现。
最后给我两分钟时间,ICRA2024Yokohama明年2024将在日本横滨召开大家已经开始准备文章了,大家积极投稿,横滨是日本第二大人口的城市,他离东京国际机场只有30分钟,离(英文)机场只有90分钟,非常方便,而且是第一个日本明治维新之后开国的城市,所以它也是(英文),非常有意思的地方,我们是5月12号到17号在那里开会,而且有非常大的展厅,来参会的公司,有意参展或者资助我们大会的话,我们非常欢迎,我们这个会场是在市政中心,离海边非常近,住宿、吃饭都会非常的方便,所以希望大家能够有空参加,在日本跟大家相见。这是我们的团队,希望能够见到大家。
孟庆虎:谢谢志东教授,福田教授有事先走了,让我替他主持一下,所以我们今天上午的会议到此结束,谢谢大家。