AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？

来源：酩酊大醉网编辑：时尚时间：2025-07-08 04:45:51

财联社3月8日讯（编辑史正丞）过去几个月里，大战段谷的P点由ChatGPT引发的进入AI热潮向人类展现了通用语言模型的生产力前景。就在聊天机器人逐渐变成生产力工具之时，实体利用通用语言模型驱动真正的化阶机器人也已经提上日程。

本周老牌AI大厂与柏林工业大学的歌刚研究人员联合发布PaLM-E视觉语言模型，通过同时处理图像和语言文本，发布解锁人类与机器人交互的模型新篇章。

（预印本论文，有亮来源：谷歌、大战段谷的P点柏林工业大学）

顾名思义，进入PaLM-E模型源自于谷歌的实体大型语言模型PaLM，E指的化阶就是具象化（Embodied）。通过将通用语言模型与视觉转换模型ViT相结合，歌刚PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的发布能力，不仅能够输出文字，模型还能输出指令使得机器人的智能化跃上一个新的台阶。

研究人员介绍称，PaLM和ViT的结合，使得PaLM-E的参数量最高可达5620亿组，也是全球已知的最大视觉语言模型。

回归到资本市场最关心的问题，这个听上去很厉害的AI模型，到底能干什么事情呢？对此研究人员也给出一系列案例，帮助外界理解这个模型的妙处。

（PaLM-E模型的案例，来源：谷歌、柏林工业大学）

首先，具备视觉属性的AI模型将拥有解读图片并进行思维推理的能力。例如可以通过一张禁行交通标志（除自行车外）的图片，来解答“我能否在这条马路上骑自行车”；通过OCR识别餐馆的手写菜单，能进行账单的计算；或是通过识别一系列烘焙材料的照片，向机器人传达“制作蛋糕胚”的流程。

在AI模型与机器人结合的实验演示中，机器人得到“从抽屉里拿出米饼”的指令后，能够顺利地从十多个开放式抽屉中找到米饼，拿给研究人员。

（来源：谷歌、柏林工业大学）

在后续的实验中，研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令，以及将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能顺利地完成任务。

（来源：谷歌、柏林工业大学）

虽然从演示视频中来看，受限于演示机器人较为简单的设计，执行指令的时候仍显得“笨手笨脚”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力，工业应用和工业设计上的突破也指日可待。或许在不久的将来，就会出现一款风靡全球的智能机器人硬件。

值得一提的是，作为AI大战的老对手，也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中，微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。

（来源：微软）

上一篇：肖远企：帮助新市民做好金融健康管理，拒绝高息诱惑高息陷阱
下一篇：经济日报：国产手机创新谋高端

AI大战进入实体化阶段 谷歌刚发布的PaLM-E模型有哪些亮点？

友情链接

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？