“策略迭代法”的概念、定义、翻译、参考文献-科学参考

单词

策略迭代法

释义

【策略迭代法】

拼译：policy iteration method

策略迭代法(policy iteration method)是动态规划中求最优策略的基本方法之一。它借助于动态规划的基本方程，交替使用“求值计算”和“策略改进”两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。装略迭代法最初是由R．贝尔曼提出的。1960年，R．A．霍华德对于一种马尔可夫决策过程模型，提出了适用的策略迭代法，给出了相应的收敛性证明。后来，发现策略迭代法和牛顿迭代法在一定条件下的等价性，于是，从算子方程的牛顿逼近法的角度去研究策略迭代法，取得了新的发展。

随便看

科学参考收录了7804条科技类词条，基本涵盖了常见科技类参考文献及英语词汇的翻译，是科学学习和研究的有利工具。