Knowledge distillation: The goal of knowledge distillation is to train a small model (student) to mimic a larger model (teacher).
知识蒸馏:知识蒸馏的目标是训练一个小模型(学生)来模仿更大的模型(老师)。
Pruning: Pruning refers to the process of finding the least useful parameters and setting them to zero. This leads to sparser models which can be stored more efficiently.
剪枝:剪枝是指找到最无用的参数并将其设置为零的过程。这导致模型更希罕,可以更有效地存储。
Quantization: Model parameters are often represented with 32-bit floating numbers. In quantization, we use fewer bits to represent the parameters, which reduces the model’s size. Quantization can happen during training or post-training [39].
量化:模型参数通常用 32 位浮点数表示。在量化中,我们使用更少的位数来表示参数,从而减小了模型的大小。量化可以在训练期间或训练后进行[39]。
Feature scaling 特征缩放
公式: L = − ∑ i = 1 N y i log ( y ^ i ) L = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) L=−i=1∑Nyilog(y^i)
其中, y i y_i yi 是实际标签, y ^ i \hat{y}_i y^i 是猜测概率。
均方毛病(Mean Squared Error, MSE):
常用于回归问题。它衡量的是猜测值与实际值之间差异的平方和的均匀值。
公式: MSE = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 MSE=N1i=1∑N(yi−y^i)2
其中, y i y_i yi 是实际值, y ^ i \hat{y}_i y^i 是猜测值, N N N 是样本数目。
均匀绝对毛病(Mean Absolute Error, MAE):
也是常用于回归问题。它衡量的是猜测值与实际值之间差异的绝对值的均匀值。
公式: MAE = 1 N ∑ i = 1 N ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| MAE=N1i=1∑N∣yi−y^i∣
其中, y i y_i yi 是实际值, y ^ i