算法流程简述:
①初始化:根据情况,初始化各state的state value,一般设置为0;policy同时也初始化,一般设置为每个state选取各action的概率相等
②代价评估(policy evaluation,PE):循环迭代计算,究竟当前policy下稳态state value
③策略提拔(policy improvement):依据当前statevalue值,根据情况模型( p ( r ∣ s , a ) p(r|s,a) p(r∣s,a)、 p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a))计算各(s,a)对action value,并以greedy policy策略将各state中action value最大的值举行policy优化
④停止判定:判定最近两次policy是否相等,若是则停止算法输出policy,若否则重复实行②③步。