强化学习关注长期回报而非短期标签。()
强化学习关注长期回报而非短期标签。()
A、正确
B、错误
正确答案:A
答案解析:强化学习的核心目标是使智能体通过与环境的交互,学习到一种策略,以最大化长期累积回报。这与有监督学习形成鲜明对比,有监督学习依赖短期标签(训练数据中的已知输出标签)来学习输入与输出之间的映射关系。
在强化学习中,智能体每采取一个行动,环境会给予相应的奖励反馈。但智能体不能仅仅为了获取即时的高奖励(短期回报)而行动,因为某些短期内看似不利的行动,从长远来看可能会使智能体处于更有利的状态,从而获得更大的长期回报。例如,在国际象棋游戏里,智能体(下棋程序)的某个走法可能在当前回合没有带来明显的优势甚至看似不利,但却为后续的几步棋创造了有利的局面,最终赢得比赛获得高回报。智能体需要考虑一系列行动的长期影响,不断调整策略以追求长期回报的最大化,而不是单纯关注短期的奖励信号(类似于有监督学习中的短期标签)。所以“强化学习关注长期回报而非短期标签”这一说法正确。
Tag:动手学AI人工智能通识与实践
时间:2025-11-16 10:55:40
- 上一篇:强化学习不需要探索环境。()
- 下一篇:机器学习的核心目标是什么?