模拟学习中,compounding error 是致使任务失败的主要原因。具体来说,当智能体(agent)在测试时遇到训练集中未见过的情况时,可能会产生预测误差。这些误差会渐渐累积,导致智能体进入未知状态,终极任务失败。ALOHA 通过引入 Action Chunking 和 CVAE(Conditional Variational Autoencoder)来办理这一标题,显著淘汰了错误累积的影响。
在传统的模拟学习中,策略模子通常预测单步动作 π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(at∣st),即根据当前状态 s t s_t st 预测下一个动作 a t a_t at。然而,这种单步预测的方式容易导致误差累积,尤其是在长时间任务中。
Chunk Size 设置:将动作序列划分为大小为 kk 的块(chunk),每 kk 步,智能体获取一次输入,并预测接下来的 k 步动作。
轨迹长度缩减:轨迹长度被缩小到了 1 k \frac{1}{k} k1。
策略模子发生变革:由预测单步 π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(at∣st) 变为 π θ ( a t : t + k ∣ s i ) \pi_\theta(a_{t:t+k}|s_i) πθ(at:t+k∣si) 。
为使轨迹更平滑,ALOHA 提出 temporal ensemble,对 k 个对同一动作的预测,接纳加权的方式求和,权重 w i = e x p − m ∗ i w_i = exp^{-m*i} wi=exp−m∗i 。这种方法可以有效淘汰动作序列中的抖动,使动作更加平滑。