高德发布全球首个由大模型驱动的视觉认知步行导引系统

中国科技公司正密集发布空间智能产品,标志着AI从二维平面交互向三维物理世界理解的关键跃迁。多模态大模型成为核心技术,应用已快速落地至手机、AR眼镜、机器人与智能汽车,行业正从技术演示走向规模化可用。IDC报告预计全球服务机器人市场到2028年将超千亿美元,为空间智能提供了明确的商业化出口。

高德发布全球首个由大模型驱动的视觉认知步行导引系统

近日,国内多家科技公司密集发布其空间智能相关产品与战略,标志着AI从二维平面交互向三维物理世界理解的重大范式跃迁。这不仅关乎技术竞赛,更预示着人机交互、智能终端乃至实体产业智能化将迎来新一轮变革。

关键要点

  • 多模态大模型成为实现空间智能的核心技术路径,通过融合视觉、语言、深度信息理解三维环境。
  • 应用场景快速落地,已从手机、AR眼镜延伸至机器人、智能汽车及工业领域。
  • “端云协同”成为主流部署模式,以平衡强大的环境理解能力与实时性、隐私性需求。
  • 行业正从技术演示走向规模化可用,寻找可持续的商业模式成为下一阶段关键。

空间智能应用全景扫描

当前,空间智能应用已形成清晰的层次化发展格局。在消费电子层面,OPPO在其新款旗舰手机上推出了基于AndesGPT的AI助手新小布,具备“记忆”能力,可基于对用户习惯的理解提供主动服务;同时,其AI消除功能能智能识别并重构被遮挡的3D空间信息。荣耀则发布了魔法大模型,推动其操作系统成为“个人化”的智能体,理解用户所处的物理上下文。

AR/VR与可穿戴设备领域,雷鸟创新发布了新一代AR眼镜雷鸟X2 Lite,其搭载的双目全彩MicroLED光波导显示屏和空间感知能力,旨在提供更沉浸的3D交互体验。而蔚来汽车发布的旗舰车型ET9,则配备了自研的智能驾驶芯片和传感器系统,本质上是在移动空间内实现高阶环境感知与决策,是空间智能在垂直场景的深度集成。

更底层的机器人业务成为检验空间智能“可用性”的试金石。华为在2023年财报中首次将“华为云机器人平台”作为重要进展列出,该平台提供仿真、开发与管理服务,赋能机器人感知与运动规划。小米则持续投入仿生机器人研发,其CyberDog和CyberOne项目均高度依赖对动态、非结构化环境的实时理解与交互能力。

行业背景与深度分析

这一波空间智能热潮并非孤立事件,而是全球AI竞赛向具身化和现实世界应用延伸的必然结果。与OpenAI的Sora(文生视频)或Google的Gemini(原生多模态)主要聚焦于数字内容生成与理解不同,中国厂商的当前发力点更侧重于“感知-理解-交互”闭环在物理设备上的即时落地。这是一种“应用牵引技术”的路径,与海外巨头“技术突破引领应用”的路径形成对比。

从技术角度看,实现可靠的空间智能面临三大挑战:算力、算法与数据。端侧设备算力有限,迫使模型必须轻量化。例如,许多手机端的AI功能依赖NPU(神经网络处理器)进行本地推理,其性能(以TOPS为单位衡量)直接决定了模型复杂度的上限。算法上,需要将传统的计算机视觉任务(如SLAM-即时定位与地图构建)与大模型的语义理解能力结合。数据则更为棘手,高质量、大规模、标注好的3D场景数据极其稀缺,这在一定程度上限制了模型的泛化能力。

市场数据揭示了其紧迫性。根据IDC报告,2023年中国AR/VR市场出货量虽经历调整,但长期增长预期不变;同时,全球服务机器人市场预计到2028年将超过千亿美元规模。这些终端市场的增长,为空间智能提供了明确的商业化出口。此外,在自动驾驶领域,特斯拉的FSD(完全自动驾驶)系统可被视为空间智能的一个极致应用,其通过“纯视觉”方案理解环境,引发了行业对传感器路线的持续辩论。中国厂商在智能汽车上的投入,可看作是在同一赛道上的差异化竞争。

未来影响与发展前瞻

空间智能的普及将首先重塑人机交互范式。未来的设备交互将不再局限于触摸和语音,而是融合手势、眼动、空间定位乃至意图预测,变得更为自然和隐形。这对于AR眼镜、智能座舱、家庭机器人等下一代终端设备制造商而言,是定义产品竞争力的核心。

其次,它将催生新的开发者生态与平台机会。华为的机器人平台是一个信号,未来可能出现更多提供空间感知、3D重建、场景理解等能力的“空间智能云服务”,降低开发门槛。这类似于移动互联网早期,地图API和支付SDK的普及催生了O2O浪潮。

需要警惕的是,技术跃进伴随隐私与安全风险的几何级数增长。能够持续感知并理解周围环境的设备,收集的数据敏感度远超传统传感器。如何建立数据采集、使用和存储的规范,将是产业健康发展的前提。

展望下一步,行业观察者应重点关注:端侧AI芯片的算力竞赛(如苹果、高通、华为海思的新品)、多模态大模型在权威3D基准测试上的表现(如ScanNet、3DMatch等数据集上的精度提升),以及首个用户量突破千万级的“杀手级”空间智能应用会出现在哪个场景(是AR游戏、智能导航还是家庭助理)。这场从“可视”“可感”到真正“可用”的征程,才刚刚开始。

常见问题