AI+机器人!当机器人碰上大模型,将带来哪些变革? | 研报推荐

jh 3个月前 (01-24)

叠加AI大模型(特别是多模态AI大模型)的赋能,移动机器人的能力有望大幅提升。

进入2024年,机器人领域迎来了一场大爆发,科技巨头们纷纷带来惊艳的演示视频,展示出令人瞠目结舌的产品。

这其中,大部分视频展示的是外表酷似人形的“具身智能体”,它们可以完成各类复杂任务。

然而,这些演示视频也引发了不少的争议,有人怀疑这些机器人是否真的在自主执行任务。

例如斯坦福大学推出的Mobile ALOHA系统机器人,就被曝出是真人远程操作,在自主模式下曾多次“翻车”,可见AI机器人离落地应用还有很大差距。

不过在工业制造、仓储物流等场景里,工业机器人已经在大模型(LLM)的加持下展现出一定的智能性与自主性。

在近期国投证券发布的报告《人工智能行业专题:大模型带来机器人变革》一文里,分析师以“AMR机器人”为例,介绍了大模型给工业机器人带来的影响与变革。

以下内容为报告重点内容精选:

AMR行业快速增长,软件和算法是核心

(镁客网注:在此部分,分析师介绍了AMR机器人的定义、技术路径、技术核心等内容,并介绍了英伟达等海外大厂的AMR机器人方案。)

移动机器人,指在复杂环境下工作,具有自行组织、自主运行、自主规划的智能机器人,主要可以分为自主移动机器人(AMR)、关节型机器人、人机协作机器人等。

根据GGII数据,从全球维度来看,22年全球移动机器人市场规模约292亿,预计27年增长至1874亿元,对应22-27年CAGR为45.07%;

从国内维度来看,22年中国移动机器人市场规模约97亿元,预计27年增长至462亿元,对应22-27年CAGR为36.74%,市场规模快速增长。

其中,自主移动机器人(AMR)是一种能够独立理解环境并在环境中移动的机器人。

AMR与其前身自动导引车 (AGV) 不同,后者依赖于轨道或预定义路径,并且通常需要操作员监督。而AMR使用一组复杂的传感器、人工智能、机器学习和计算来进行路径规划,以解释和导航其环境,不受有线电源的束缚。

AMR的背后有两大关键技术路径:

1、容器化的SDK工具集——包含感知、导航软件堆栈;好用的开发环境,模拟工具;后续优化升级Containers;

2、边缘微服务器支撑——包括无线通信,安全设备,协作SLAM Fleet管理。

AMR技术核心:

1、架构

(1)AMR本体能力:具备传感和智能路径规划,运动控制、安全和人机交互HMI,机器视觉和智能导航等能力, 赋能制造业向柔性化、智能化发展。

(2)云端交互任务处理:AMR本体通过网络(WIFI/以太)与云端计算中心交互,在云端完成数据分析,推理,模拟等工作,需要云端AI芯片支持(例如英伟达H100等)。

(3)架构组成:目前主要由控制系统、导航传感系统、驱动模块、安全监测模块、交互模块、通讯模块、动力模块(电池等)、执行机构(机械装置)组成,不同场景品类的机器人对配置要求不同。

2、硬件

硬件部分主要包括TMT零部件(控制系统相关硬件、导航传感器、驱动模块、通讯模块等)、电池(动力模块)、机械装置(执行机构等),随着定位导航、机器视觉、规划执行等环节对芯片需求的增长,以及激光雷达等新型传感器的应用,机器人中TMT零部件的价值量持续提升。

未来,AI将走出计算机,进而影响外部世界(物理世界),而机器人是AI最佳载体之一;随着智能机器人的发展,机器人传感器、执行器将同AI相结合,具备模拟(用于仿真的虚拟空间)、映射(实时地图创建能力)、自主(独立运行)等能力,需要强大的端侧算力支撑,移动GPU嵌入AMR本体是发展趋势。

3、软件、算法

在实际应用中,移动机器人通常以集群的方式系统完成特定任务;

未来,成百上千台机器人规划化集群作业是发展的必然趋势,即逐步从单体智能向群体智能演进,软件和算法成为构筑核心竞争力的壁垒,例如统一环境下完成作业调度、找到全局最优方案提升集群机器人工作总效率等。

因此分析师认为,随着行业应用场景的丰富和技术的发展,产品模块化、软件模块化将成为AMR发展的必然趋势。

目前,端侧(即机器人本体)软件、算法主要有ROS 2、地图规划算法、AI算法、样点算法等,支撑路径规划、障碍躲避、运动控制等功能;

而云侧(及边缘)软件、算法主要有集群管理算法、训练、远端推理、远端SLAM、数据分析算法等,支撑算力调度、机器人集群协作、数据分析等功能。

目前,各头部厂商拥有自己的解决方案,技术路径随大模型的发展,快速迭代。

以Intel为例,其提供相应的开发工具和平台,使开发者可以快速、低成本地搭建、管理AMR机器人。

除此以外,英伟达旗下的ISAAC集成式端到端解决方案、Jetson系列产品以及特斯拉的FSD+Dojo都是目前业内比较领先的解决方案。

值得一提的是,当前机器人价值链划分里面没有智能系统。

分析师认为,机器人是典型的机电软一体化产品,软件与硬件是相互限制又相互促进的矛盾体;边缘算力硬件将会制约机器人相关应用的发展,边缘算力硬件的突破使得机器人可以承载更强大的AI,同时机器人应用的发展会倒逼边缘算力硬件的提升。

当下的机器人智能停留在视觉(vision)阶段,机器人缺乏智能系统(即机器人的大脑);在未来,在AI对机器人赋能的大背景下,机器人可以逐步理解物理世界,未来有可能向具身智能方向发展,智能系统对机器人的重要性愈发凸显。

巨变:多模态大模型赋能机器人

(镁客网注:在此部分,分析师介绍了多模态大模型如何赋能机器人。)

多模态大模型赋能机器人,主要体现为多模态感知和多模态交互。

多模态感知:通过多类型传感器的配合,机器人处理多个模态接收的信息,从而实现对文本、图像、视频、音频等模态信息的学习和理解。

多模态交互:用户可以同时使用语音、手势、文本等与机器人交互,同单模态交互相比,多模态交互具有减轻用户认知负担(交互更自然)、消除任 务歧义(交互更准确)、降低环境干扰(交互更加鲁棒)等优势,使交互更加灵活和高效。

此外,大语言模型(LLM)赋能机器人语义理解,从传统的关键词语义识别,进化到可以理解人类复杂的语音命令;同时,通过预训练大模型将“记忆”移植到智能机器人终端,机器人具备理解任务的能力。

由于机器人本体计算能力有限,需要通过强大的云端计算能力给机器人赋能。由此构成了“云-网-端架构

“端”:是机器人本体及本体自身的控制系统,嵌入式AI芯片逐步替代传统嵌入式芯片,机器人本体的智能性快速提升;

“网”:主要指通过Wifi、5G及其他无线通信网络将机器人连接起来,实现机器人本体和云端大脑的连接;

:通过机器学习,不断进化,进而使前端机器人本体的智能随之提升。

未来,随着模型植入机器人本体。云端大模型泛化出基本能力,并把这部分“记忆”植入机器人边缘端(通过蒸馏等方式压缩模型大小),进 而机器人本体可以将识别到的视觉、雷达、语音交互数据进行处理,并规划动作,完成反馈。

在该部分,分析师以Google RT2 为例,介绍了新模型如何赋能机器人执行各项任务。这是一个视觉-语言-动作(VLA)模型,符号理解、推理、人类识别等领域能力大幅提升,且泛化能力大幅提升。

国内机器人产业蓬勃发展

(镁客网注:在此部分,分析师介绍了国内机器人产业的最新情况。)

国内机器人产业:机器人产业链上游包括核心零部件、配套零部件和软件系统开发,中游为机器人本体的生产及系统集成,目前主要集 中在工业机器人和服务机器人领域,下游主要包括工业应用(汽车制造、家电制造、航空航天等)和服务应用(餐饮服务、酒店服务、

医疗服务、物流服务等);近两年一些做算法的软件公司借助海外大模型的风,开始自研垂直小模型,并供给下游终端厂。

创业公司情况:根据中国机器人网统计数据,2023年中国机器人行业共发生134起融资事件,其中近亿/过亿元级融资事件52起,2023年融资金额总计为200亿元左右;2023年融资事件主要发生在工业机器人相关(37起左右)、医疗机器人(29起左右)、服务机器人(24起左右)、人形机器人(12起左右)等领域。

上市公司情况:目前上市公司以提供终端硬件为主,并逐步优化机器人软件(模型、算法等),提升机器人性能表现。

在此部分,研报列举了海康机器人等国内多家优秀机器人企业,这里就不详细展开介绍。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到