洞察市场格局
解锁药品研发情报

客服电话

400-9696-311
医药数据查询

专题 | 千寻智能高阳团队提出Point-VLA,直指具身智能核心瓶颈

高阳

针对视觉-语言-动作(VLA)模型在执行复杂语言指令时面临的根本性瓶颈,「千寻智能」高阳团队提出了一种名为Point-VLA的创新方法


该方法首次将视觉定位引入机器人指令学习,使机器人能像人类一样通过“指着说”来精确理解并执行任务,在真实世界操作中的平均成功率从纯文本VLA的32.4%大幅提升至92.5%,提升近3倍


VLA模型面临的根本挑战及突破

研究团队指出,纯语言指令在面对无参考点的精确放置、不规则物体抓取或杂乱场景中的特定目标时,存在语言无法精确表达以及模型难以泛化复杂描述两大核心困境。例如,在需要从8个相同瓶子中抓取特定一个时,纯文本VLA的成功率仅为43.3%;在无参考点的桌面上精确放置物体时,成功率仅30%。


为了突破语言的固有局限,千寻智能高阳团队提出了Point-VLA方法,其核心思想简单而有效:既然语言无法精确表达,那就像人类一样,用「指」的方式来明确目标。


Point-VLA的关键创新在于引入了视觉定位指令,即:系统在机器人观察到的第一帧图像上叠加一个边界框(bounding box),明确标注出目标物体或位置。这个边界框就像人类用手指指向目标一样,提供了明确的像素级空间线索。Point-VLA 采用统一的策略架构,能够同时处理纯文本指令和视觉定位指令,实现了灵活的「即插即用」能力。


为解决视觉定位数据标注成本问题,千寻智能团队开发了一套自动数据标注Pipeline,利用多模态大语言模型自动从演示视频中生成边界框监督信号,并配合数据增强策略,无需额外人工成本即可高效扩展训练数据。


实验验证:从32.4%到92.5%的跨越

千寻智能团队在真实机器人平台上进行了全面的实验验证,涵盖 6 个具有挑战性的操作任务,包括不规则物体抓取、OOD 物体抓取、杂乱场景抓取、蛋槽精确放置、平面精确放置和蛋槽精确插入。实验结果令人振奋:Point-VLA在所有任务上的平均成功率达到92.5%,相比纯文本VLA的32.4%提升了近3倍

最具挑战性的杂乱场景抓取任务中,Point-VLA的成功率从43.3%提升到94.3%,在精确放置任务中从23.3%提升到90.0%。这些结果充分证明了视觉定位在消除歧义和实现精确操作方面的强大能力。



点击图片 了解更多数据详情



来源:企业新闻
图片
图片

<END>
*版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
AI+生命科学全产业链智能数据平台

收藏

发表评论
评论区(0
  • 暂无评论

    摩熵医药企业版
    50亿+条医药数据随时查
    7天免费试用
    摩熵数科开放平台
    原料药
    十五五战略规划

    全球新药治疗领域统计

    全球新药靶点统计

    专利数据服务
    添加收藏
      新建收藏夹
      取消
      确认