我们模型的训练消耗了大量能源,导致了二氧化碳的排放。我们遵照该主题的最新文献,并在表15中详细列出了总能耗和由此产生的碳足迹。我们接纳Wu等人(2022)的公式来估计训练模型所需的瓦时(Wh)以及碳排放量(tCO2eq)。对于Wh,我们使用以下公式:
[ \text{Wh} = \text{GPU-h} \times (\text{GPU功耗}) \times \text{PUE} ]
此中,我们将电源使用效率(PUE)设为1.1。碳排放量取决于用于训练网络的数据中央的位置。例如,BLOOM使用的电网排放强度为0.057 kg CO2eq/KWh,导致27 tCO2eq;而OPT使用的电网排放强度为0.231 kg CO2eq/KWh,导致82 tCO2eq。在本研究中,我们感兴趣的是比力这些模型在同一数据中央训练时的碳排放本钱。因此,我们不思量数据中央的位置,而是使用美国国家平均碳排放强度因子0.385 kg CO2eq/KWh。这导致了以下碳排放量的盘算公式:
t C O 2 e q = M W h × 0.385. \mathrm { t C O _ { 2 } e q = M W h \times 0 . 3 8 5 . } tCO2eq=MWh×0.385.
为了公平比力,我们对OPT和BLOOM应用了相同的公式。对于OPT,我们假设训练必要34天,使用992个A100-80GB GPU(拜见他们的日志4)。末了,我们估计我们使用了2048个A100-80GB GPU,耗时约5个月来开发我们的模型。这意味着,根据我们的假设,开发这些模型的能耗约为2,638兆瓦时(MWh),总碳排放量为1,015吨二氧化碳当量(tCO2eq)。
我们希望发布这些模型能够帮助减少未来的碳排放,因为训练已经完成,而且此中一些模型相对较小,可以在单个GPU上运行。
7 相关工作