具身智能的“大脑”在大模型阶段,能够融合语言、视觉、触觉理解深层需求,例如看懂手势并听懂“轻拿”指令。()
具身智能的“大脑”在大模型阶段,能够融合语言、视觉、触觉理解深层需求,例如看懂手势并听懂“轻拿”指令。()
A、正确
B、错误
正确答案:A
答案解析:具身智能强调智能体不仅要有智能的认知能力,还需通过身体与环境进行交互。在大模型阶段,强大的大语言模型及相关多模态技术为具身智能提供了更为智能的“大脑”。
一方面,大模型具备强大的语言理解能力,能够准确解析像“轻拿”这样的指令。另一方面,结合视觉与触觉等感知模态的技术发展,大模型可以融合多种信息。通过视觉模型,智能体能够识别手势等视觉信息;通过触觉反馈及相应处理技术,能理解与触觉相关的信息。通过对这些不同模态信息的深度融合,智能体就可以综合理解语言、视觉、触觉信息,从而明白深层需求,像看懂手势并听懂“轻拿”指令,进而更智能地控制身体完成相应动作。所以该说法正确。
Tag:动手学AI人工智能通识与实践
时间:2025-11-16 13:16:17