请输入您要查询的字词:

 

单词 策略迭代法
释义

【策略迭代法】
 

拼译:policy iteration method
 

策略迭代法(policy iteration method)是动态规划中求最优策略的基本方法之一。它借助于动态规划的基本方程,交替使用“求值计算”和“策略改进”两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。装略迭代法最初是由R.贝尔曼提出的。1960年,R.A.霍华德对于一种马尔可夫决策过程模型,提出了适用的策略迭代法,给出了相应的收敛性证明。后来,发现策略迭代法和牛顿迭代法在一定条件下的等价性,于是,从算子方程的牛顿逼近法的角度去研究策略迭代法,取得了新的发展。

随便看

 

科学参考收录了7804条科技类词条,基本涵盖了常见科技类参考文献及英语词汇的翻译,是科学学习和研究的有利工具。

 

Copyright © 2000-2023 Sciref.net All Rights Reserved
京ICP备2021023879号 更新时间:2024/5/20 2:00:06