众智未来研究院机器人中心团队将发表最新研究成果

众智未来研究院机器人中心团队将发表最新研究成果

近日,我院首席科学家、院长于长斌指导的博士生团队在机器人视觉导航领域取得重要研究进展,研究成果以《基于元学习的多模态聚合的记忆视觉语音室内导航方法》(“Multimodal Aggregation Approach for Memory Vision-Voice Indoor Navigation with Meta-Learning”)为题,被国际智能机器人顶级学术会议IROS (2020 International Conference on Intelligent Robots and Systems)录用,该论文报道了团队自主研发的记忆视觉语音室内导航全新模型MVV-IN。

室内导航是移动机器人系统完成日常任务不可缺少的功能。为了完成各种任务,室内移动机器人必须能够实现高效搜索,以及在受限环境下的定位和接近目标。众所周知,GPS等的定位系统在室内精度较低,为了实现机器人的室内导航任务,全球的研究者们提出了大量基于巡线、激光雷达、信号标记等的模型方法,但是其中巡线、信号标记等方法需要专业技术人员布置环境,难以实现即插即用;激光雷达主要用于距离探测,无法理解环境内容。因此,对机器人的视觉语音导航技术的研究可以帮助机器人在“看”、“听”然后“理解”环境与任务,“学习”如何执行任务,赋予机器人新的活力。这种技术具备大量的实际应用场景,例如,它将使消防、医疗等机器人能够在室内环境下更有效地工作,在用户无法用手操控机器人的时候通过语音为机器人指定任务,甚至代替人类执行具有一定风险的任务。

这项研究利用多模态聚合(Multimodal Aggregation)、元学习(Meta-Learning)等方法,在AI2-THOR环境中的120个房间内分别各进行了几十次的训练实验(每次训练包含6百万次迭代),实现了机器人的对于视觉观测的内容、空间、深度理解等的元技能的学习,让机器人学会如何去学习,从而使得机器人可以更快速地适应新的场景(即迁移到的房间)。由于该团队研发的MVV-IN模型引入了语音语义理解,通过GloVe编码将自然语言作为模型每一步决策的参考,因此用户可以使用语音作为导航的指令,指定房间内任意可见物体作为导航目标。同时,该模型采用长短期记忆(Long Short-Term Memory)和注意力机制(Attention Mechanism),从而提高了决策效率,降低了决策失误率,并使得模型可以在发现目标之后更快速更精准地导航至其附近。

DSC_0336~1.jpg

(研究院副院长指导宋曜先博士调试机器人)

 

颜博士介绍.jpg

(颜力琦博士在研究院分享研究成果)

 

于长斌院长指导的博士生团队成员有西湖大学-复旦大学联合培养直博生颜力琦,来自美国普渡大学的访问博士生刘东方,以及西湖大学-复旦大学联合培养博士生宋曜先。该项研究得到了国家自然科学基金(National Science Foundation China,NSFC)的支持,所产生的成果将更好的实现新一代智能机器人的交互性和探索能力,使智能机器人在智慧城市、智慧生活与智慧医疗等场景中得到更为高级和更为广泛的应用。