对于大模型来讲,如果每次跑完练习才知道结果(参数的优劣,改进是否有效),花销比较大,一般会在较小的模型或者较小的数据集上做消融实行,验证之后再去大模型上举行实行。对于语言模型来讲,由于语言的扩展较大,所以导致在小规模模型上做的实行可能有效,但是换到大模型上就达不到想要的结果了;而且大模型上特有的涌现能力在小模型上无法观测。
Training process
由于在大量的数据集上练习过,而且有的时间是在不精确的答案上练习过,所以预练习模型(Base Model)有些时间的答复跟想要得到的答复相差很远。为了能跟人的意图尽可能保持同等,而且更加安全可控,所以使用RLHF(Reinforcement Learning with Human Feedback)的方法对模型举行了微调