对于强化学习中的策略更新,以下哪种方法通过直接优化策略的参数?
对于强化学习中的策略更新,以下哪种方法通过直接优化策略的参数?
A.策略梯度法
B.价值迭代法
C.策略迭代法
D.Q-learning法
正确答案:A
答案解析:策略梯度法直接优化策略的参数。
Tag:AI人工智能知识竞赛 策略 迭代法
时间:2025-01-17 21:14:11