在强化学习中，哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力（）

精华吧→答案→知到智慧树→未分类

A、贪心策略

B、贝尔曼方程

C、动态规划

D、蒙特卡洛采样

正确答案：A

答案解析：

选项A：贪心策略在强化学习中，智能体倾向于选择当前认为能带来最大奖励的动作，这体现了“利用”已有经验的一面。然而，为了探索新的动作可能带来的潜在更大奖励，常对贪心策略进行改进，如ε-贪心策略。在ε-贪心策略中，智能体以ε的概率随机选择动作，这就是“探索”新动作；以1-ε的概率选择当前最优动作，即“利用”已有经验。通过这种方式，贪心策略（及其改进版本）使得强化学习具备了在利用与探索中寻求平衡的能力。

选项B：贝尔曼方程主要用于描述在给定策略下，状态价值函数或动作-价值函数之间的递推关系，它是强化学习理论基础的一部分，但它本身并不直接解决利用与探索的平衡问题，而是为计算价值函数提供了理论框架，所以B选项错误。

选项C：动态规划是求解强化学习问题的一种方法，通过将问题分解为多个子问题并利用贝尔曼方程迭代求解，但它主要关注如何找到最优策略，没有直接针对利用与探索平衡的机制，所以C选项错误。

选项D：蒙特卡洛采样是一种通过采样来估计价值函数的方法，它基于经验平均来估计回报，帮助强化学习算法学习价值函数，但没有涉及到在利用与探索之间平衡的机制，所以D选项错误。

Tag：人工智能引论时间：2025-09-26 09:58:51