强化学习没有标签，它根据环境的反馈来判断行为的好坏，通过奖励和惩罚来学习最大化行为序列的长期收益。（）

精华吧→答案→知到智慧树→未分类

A、错

B、对

正确答案：B

答案解析：强化学习与监督学习不同，监督学习依赖有标记的数据进行训练，而强化学习中不存在传统意义上的标签。

在强化学习中，智能体与环境进行交互。智能体采取一个动作后，环境会给出相应的反馈，这个反馈以奖励或惩罚的形式体现。如果智能体的某个行为使得环境给予较高的奖励，那么从长远来看，这种行为对于实现最大化长期收益是有益的，智能体就倾向于在类似情况下重复该行为；反之，如果某个行为导致环境给予惩罚，智能体就会尽量避免这种行为。

例如，在机器人探索迷宫的场景中，当机器人朝着出口方向移动并最终找到出口时，环境会给予较高的奖励，机器人通过不断尝试和根据奖励反馈，逐渐学会采取能够最大化长期奖励的行为序列，即找到最快走出迷宫的路径。所以该说法正确。

Tag：计算与人工智能概论时间：2025-09-27 11:01:15