在本章内容范围内，“在状态，按照某个策略行动后在未来所获得回报值的期望”，这句话描述了状态的价值函数；“在状态，按照某个策略采取动作后在未来所获得回报值的期望”，这句话描述了状态的（）

精华吧→答案→知到智慧树→未分类

A、策略优化

B、动作-价值函数

C、采样函数

D、价值函数

正确答案：B

答案解析：

动作-价值函数：动作-价值函数（通常用\（Q（s，a）\）表示）的定义为在状态s下，按照某个策略采取动作a后在未来所获得回报值的期望。它衡量了在特定状态下采取特定动作的长期价值。例如，在一个游戏场景中，处于某个游戏状态s时，玩家采取不同的操作（动作a），动作-价值函数可以帮助评估每个操作在未来可能带来的收益期望。

选项A：策略优化是指对策略进行改进，使得智能体能够获得更高的累积奖励，与在特定状态下采取特定动作后未来回报期望的概念不同，所以A选项错误。

选项C：采样函数一般是指从某个分布中进行采样的函数，与题干描述的概念无关，所以C选项错误。

选项D：价值函数（通常用\（V（s）\）表示）描述的是在状态s下，按照某个策略行动后在未来所获得回报值的期望，它关注的是状态，不涉及具体动作，与题干后半句描述不符，所以D选项错误。

Tag：人工智能引论时间：2025-09-26 10:00:38