惊雷无声 发表于 2025-3-11 04:16:14

论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-C

ALOHA 论文
   ALOHA 办理了策略中的错误可能随时间累积,且人类演示可能是非平稳的,提出了 ACT(Action Chunking with Transformers) 方法。
Action Chunking

模拟学习中,compounding error 是致使任务失败的主要原因。具体来说,当智能体(agent)在测试时遇到训练集中未见过的情况时,可能会产生预测误差。这些误差会渐渐累积,导致智能体进入未知状态,终极任务失败。ALOHA 通过引入 Action Chunking 和 CVAE(Conditional Variational Autoencoder)来办理这一标题,显著淘汰了错误累积的影响。
在传统的模拟学习中,策略模子通常预测单步动作                                                    π                               θ                                    (                                       a                               t                                    ∣                                       s                               t                                    )                                  \pi_\theta(a_t|s_t)                     πθ​(at​∣st​),即根据当前状态                                              s                            t                                       s_t                  st​​ 预测下一个动作                                              a                            t                                       a_t                  at​。然而,这种单步预测的方式容易导致误差累积,尤其是在长时间任务中。
https://i-blog.csdnimg.cn/direct/caf9cdfcc1264fbfb4d3ba4cc6d374d6.png#pic_center
为了减小 compounding error,引入了 Action Chunking,具体来说,模子不再预测单步动作,而是预测一个动作序列。
具体步骤如下:


[*]Chunk Size 设置:将动作序列划分为大小为 kk 的块(chunk),每 kk 步,智能体获取一次输入,并预测接下来的 k 步动作。
[*]轨迹长度缩减:轨迹长度被缩小到了                                                    1                               k                                          \frac{1}{k}                     k1​。
[*]策略模子发生变革:由预测单步                                                    π                               θ                                    (                                       a                               t                                    ∣                                       s                               t                                    )                                  \pi_\theta(a_t|s_t)                     πθ​(at​∣st​) 变为                                                    π                               θ                                    (                                       a                                           t                                  :                                  t                                  +                                  k                                                 ∣                                       s                               i                                    )                                  \pi_\theta(a_{t:t+k}|s_i)                     πθ​(at:t+k​∣si​) 。
为使轨迹更平滑,ALOHA 提出 temporal ensemble,对 k 个对同一动作的预测,接纳加权的方式求和,权重                                                    w                               i                                    =                            e                            x                                       p                                           −                                  m                                  ∗                                  i                                                       w_i = exp^{-m*i}                     wi​=exp−m∗i 。这种方法可以有效淘汰动作序列中的抖动,使动作更加平滑。
CVAE

对于 Action Chunking 中的预测,接纳 condition + VAE 的方式训练,并接纳 encoder-decoder 架构(transformer)。
https://i-blog.csdnimg.cn/direct/c97b602d2b9d470bb85e651490794c27.png#pic_center
输入信息包括:(此处不使用图像输入时为了加速训练)


[*]CLS 分类标签:表明类别,类似 BERT 的做法。
[*]关节角:机器人当前的关节状态
[*]动作序列:历史动作序列
[*]位置嵌入:表示时间步的位置信息
不同之处这只是通过 encoder 来训练 decoder,在推理时丢弃 encoder 部分。
伪代码如下:

https://i-blog.csdnimg.cn/direct/99cf6e79e2e148bc9dad4668678b8498.png#pic_center

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-C