帕累托最优指的是这样一种社会状态:当且仅当不减少其他人的效用就无法增加任何一个人的效用时,这种社会状态就称之为帕累托最优。
注意,进化学习与强化学习的优化目标都是预期的reward,但强化学习是将噪声加入动作空间并使用反向传播来计算参数更新,而进化策略则是直接向参数空间注入噪声。