机器人导航能力不足?大模型多模态解决方案来了
“走到客厅,把餐桌上的苹果拿给我”——大模型机器人可以实现这一场景了!
机器人导航技术可使机器人在环境中自主地确定位置、规划路径并移动到目的地。然而,现有的机器人导航方法主要依靠纯视觉信息,如图像或视频来理解周围环境。在复杂多变的环境中,机器人导航能力往往不足。为了克服纯视觉导航存在的局限性,香港科技大学李昊昂教授团队研究视觉-语言导航技术。研究成果可拓展机器人的应用场景、提高机器人工作效率以及确保机器人工作的安全性。
据介绍,该技术可帮助机器人整合视觉信息及语言指令,从而实现高效的人机交互。例如,在服务机器人的应用中,机器人可理解人类语言指令“走到客厅,把餐桌上的苹果拿给我”,并通过视觉数据识别“客厅”、“餐桌”、“苹果”等关键信息,进而据此完成任务。研究成果取得了行业领先的性能,可为机器人提供更加自然、智能、高效的导航与交互能力。
在信息保障方面,受制于有限的数据质量和训练场景,现有的视觉-语言大模型存在对照片拍摄视角敏感、难以理解模糊语言指令等问题。针对该问题,李昊昂教授团队提出面向视觉-语言导航应用的大模型调优策略。在机器人室内外导航数据上进行视觉数据抽取和语言指令标注,然后将模型在该数据上拟合。机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。
此外,在数据基础方面,现有的导航训练数据主要由人工在真实世界下获取,存在数据量不足、多样性低以及标注成本高等问题。李昊昂教授团队通过仿真数据合成的方式解决该问题。团队设计了新颖的生成式扩散模型,可合成大量、多样化、高质量的视觉数据和相关的语言描述。模型通过接收不同的环境控制条件,可以生成各种天气、光照条件下的场景。同时,模型可以在场景中添加或移除物体,从而有效增加训练数据的多样性。实验证明合成的数据可有效增强训练数据集,从而提高模型在处理复杂、未见场景时的鲁棒性。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
最新文章
- 国产汽水品牌大窑饮品被传IPO,公司已否认,超...
- “重庆最绿县”打造“大巴山药谷”...
- 国家卫健委:确保12356心理援助热线在5月1...
- 冬季护肤,5个“不可”科普时间...
- 春节守岁话养生“益寿良方”普大众...
- 华正新材为子公司提供4000万担保...
- 新加坡创新发展医疗健康AI应用...
- 第二场“代表通道”集中采访聊了啥畅谈种业、科创...
- 2025年“位育杯”上海市青少年网球公开赛举行...
- 能产能运还能储看塔里木油田“气”场全开积蓄“温...
- 去年交付量大跌35%,波音新“救火队长”的担子...
- 持续提升入境游便利化水平...
- 美团企业版总经理康凯:供应链整合、场景管控、服...
- 共筑“温暖家”,解锁友爱街区“善治码”...
- 东鹏控股与小红书、西卡德高以及中国建筑学会达成...
- 2024年澳康达献呈上海的答卷:年交易额近30...
- 聚焦新质生产力与产业国际竞争力提升2024年上...
- 全国铁路2025年1月5日起实行第一季度运行图...
- 近30万亿银行理财,2024年全景扫描来了...
- 阶段性供需失衡,光伏产业链价格下降,通威股份2...
- 百万抗流感药物跨越4000公里,护航西藏震区群...
- 酒后头痛如何缓解?了解这些很受用...
- 中新健康丨中疾控:接种流感疫苗可显著降低发病和...
- 权威发布|济宁:增强法治保障打造行政复议改革新...
- 人才招聘如何提升岗位“匹配率”?姜雪峰委员:高...
- 第七届中国国际进口博览会2024长三角G60科...
- 毕马威报告:中国企业的人工智能成熟度相对领先...