相较于有监督学习，强化学习的关键区别是什么？

精华吧→答案→超星尔雅学习通未分类

A.单次预测

B.序列化决策

C.静态环境

D.无标签数据

正确答案：B

答案解析：

单次预测（A选项）：无论是有监督学习还是强化学习，都不是以单次预测作为关键区别点。有监督学习可以进行多次预测以评估模型性能，强化学习中智能体也是在不断与环境交互中进行多次决策，并非单次预测，所以A选项不符合。

序列化决策（B选项）：强化学习的核心特点是智能体通过与环境进行持续交互，在一系列的时间步骤中做出序列化决策，以最大化累积奖励。智能体的每一步决策都会影响后续的状态和奖励，并且决策过程是动态的、基于环境反馈不断调整的。例如在机器人导航任务中，机器人需要根据当前位置、周围环境等信息，一步步做出移动决策，最终到达目标位置。而有监督学习主要是基于给定的有标签数据进行模型训练，目的是学习输入到输出的映射关系，对新输入进行预测，不涉及这种序列化的决策过程，所以序列化决策是强化学习相较于有监督学习的关键区别，B选项正确。

静态环境（C选项）：强化学习通常处理的是动态环境，智能体的决策会改变环境状态，环境也会反过来影响智能体的下一步决策。而有监督学习与环境是否静态并无直接关联，它主要关注数据和预测模型的构建。所以C选项错误。

无标签数据（D选项）：无标签数据是无监督学习所处理的数据类型特点。有监督学习依赖有标签数据，强化学习并不直接涉及数据是否有标签的问题，它重点在于智能体与环境的交互及决策过程，所以D选项错误。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 10:53:53

上一篇：K均值算法一定能收敛到全局最优。（）
下一篇：强化学习的要素包括哪些？