蒸馏方法:让 π_φ^(i) 表示第 i 个具身的专家战略。每个专家都会对动作产生一个正态分布 N (μ^(i)§, σ^2)。在给定 p 和具身嵌入 e 的情况下,定义一个蒸馏战略 π_θ^dist,输出 μ_θ (p,e)。为了匹配专家的分布,最小化 KL 散度。
具身嵌入:战略蒸馏的一个关键构成部门是具身嵌入 e,它捕获每个具身的形态和动态特征。在最简单的版本中,使用长度为 N 的 one-hot 编码向量,其中 N 表示机器人具身的数目。该向量中的每个位置都对应一个特定的机器人。当 N 较小且机器人差异很大时,这种直接的方法非常有效。预计通过在嵌入空间内进行插值,可学习的嵌入可以更好地泛化到新的、未见过的具身。