强化学习关注长期回报而非短期标签。（）

精华吧→答案→超星尔雅学习通未分类

强化学习关注长期回报而非短期标签。（）

A、正确

B、错误

正确答案：A

答案解析：强化学习的核心目标是使智能体通过与环境的交互，学习到一种策略，以最大化长期累积回报。这与有监督学习形成鲜明对比，有监督学习依赖短期标签（训练数据中的已知输出标签）来学习输入与输出之间的映射关系。

在强化学习中，智能体每采取一个行动，环境会给予相应的奖励反馈。但智能体不能仅仅为了获取即时的高奖励（短期回报）而行动，因为某些短期内看似不利的行动，从长远来看可能会使智能体处于更有利的状态，从而获得更大的长期回报。例如，在国际象棋游戏里，智能体（下棋程序）的某个走法可能在当前回合没有带来明显的优势甚至看似不利，但却为后续的几步棋创造了有利的局面，最终赢得比赛获得高回报。智能体需要考虑一系列行动的长期影响，不断调整策略以追求长期回报的最大化，而不是单纯关注短期的奖励信号（类似于有监督学习中的短期标签）。所以“强化学习关注长期回报而非短期标签”这一说法正确。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 10:55:40