专题 | 千寻智能高阳团队提出Point-VLA，直指具身智能核心瓶颈

针对视觉-语言-动作（VLA）模型在执行复杂语言指令时面临的根本性瓶颈，「千寻智能」高阳团队提出了一种名为Point-VLA的创新方法。

该方法首次将视觉定位引入机器人指令学习，使机器人能像人类一样通过“指着说”来精确理解并执行任务，在真实世界操作中的平均成功率从纯文本VLA的32.4%大幅提升至92.5%，提升近3倍。

VLA模型面临的根本挑战及突破

研究团队指出，纯语言指令在面对无参考点的精确放置、不规则物体抓取或杂乱场景中的特定目标时，存在语言无法精确表达以及模型难以泛化复杂描述两大核心困境。例如，在需要从8个相同瓶子中抓取特定一个时，纯文本VLA的成功率仅为43.3%；在无参考点的桌面上精确放置物体时，成功率仅30%。

为了突破语言的固有局限，千寻智能高阳团队提出了Point-VLA方法，其核心思想简单而有效：既然语言无法精确表达，那就像人类一样，用「指」的方式来明确目标。

Point-VLA的关键创新在于引入了视觉定位指令，即：系统在机器人观察到的第一帧图像上叠加一个边界框（bounding box），明确标注出目标物体或位置。这个边界框就像人类用手指指向目标一样，提供了明确的像素级空间线索。Point-VLA 采用统一的策略架构，能够同时处理纯文本指令和视觉定位指令，实现了灵活的「即插即用」能力。

为解决视觉定位数据标注成本问题，千寻智能团队开发了一套自动数据标注Pipeline，利用多模态大语言模型自动从演示视频中生成边界框监督信号，并配合数据增强策略，无需额外人工成本即可高效扩展训练数据。

实验验证：从32.4%到92.5%的跨越

千寻智能团队在真实机器人平台上进行了全面的实验验证，涵盖 6 个具有挑战性的操作任务，包括不规则物体抓取、OOD 物体抓取、杂乱场景抓取、蛋槽精确放置、平面精确放置和蛋槽精确插入。实验结果令人振奋:Point-VLA在所有任务上的平均成功率达到92.5%，相比纯文本VLA的32.4%提升了近3倍。

最具挑战性的杂乱场景抓取任务中，Point-VLA的成功率从43.3%提升到94.3%，在精确放置任务中从23.3%提升到90.0%。这些结果充分证明了视觉定位在消除歧义和实现精确操作方面的强大能力。