Teacher Forcing 是一种训练策略,其根本头脑是在训练阶段,不使用模型上一时候的猜测效果作为当前时候的输入,而是直接将真实的目的(ground truth)数据提供给模型。换句话说,在训练解码器(decoder)时,模型的每一步输入都由西席(即训练数据中的精确答案)提供,而不是依赖于模型自身已经天生的输出。
比方,在典范的 Seq2Seq 模型中,假如输入句子为
“Mary had a little lamb whose fleece was white as snow”
在训练时,我们通常在句首和句尾添加起始和竣事标记,构成:
[START] Mary had a little lamb whose fleece was white as snow [END]
模型在时间步 t t t 的输入不再使用模型猜测的 y ^ t − 1 \hat{y}_{t-1} y^t−1,而是直接使用真实的 y t − 1 y_{t-1} yt−1 来猜测 y t y_t yt 。这一方式能更快地为模型提供有用的梯度信号,从而加速训练过程。
2. 为什么需要 Teacher Forcing?