具身智能的“大脑”在大模型阶段，能够融合语言、视觉、触觉理解深层需求，例如看懂手势并听懂“轻拿”指令。（）

精华吧→答案→超星尔雅学习通未分类

A、正确

B、错误

正确答案：A

答案解析：具身智能强调智能体不仅要有智能的认知能力，还需通过身体与环境进行交互。在大模型阶段，强大的大语言模型及相关多模态技术为具身智能提供了更为智能的“大脑”。

一方面，大模型具备强大的语言理解能力，能够准确解析像“轻拿”这样的指令。另一方面，结合视觉与触觉等感知模态的技术发展，大模型可以融合多种信息。通过视觉模型，智能体能够识别手势等视觉信息；通过触觉反馈及相应处理技术，能理解与触觉相关的信息。通过对这些不同模态信息的深度融合，智能体就可以综合理解语言、视觉、触觉信息，从而明白深层需求，像看懂手势并听懂“轻拿”指令，进而更智能地控制身体完成相应动作。所以该说法正确。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 13:16:17