矩阵是A(大小H×D),参数矩阵B(大小D×W),Y=AB的FLOPs公式就是:
H × W × ( D + (D−1)) = H × W × (2D−1)
其中Y的每个元素都是经过D次相乘以及D-1加法。如果考虑常数项或者考虑参加bias,即Y中每一个元素必要额外举行一次加法,则可以将公式中的-1省略,即:2 × H × D × W
矩阵乘法FLOPs与参数量Parameter
一个全毗连层的神经网络计算的过程可以看成是两个矩阵举行相乘的操作,忽略掉激活函数(activation)部门的计算,假设输入矩阵是A、矩阵大小是H×I,全毗连层的参数矩阵是B、矩阵大小是I×W,全毗连层矩阵计算过程实际就是:Y=AB
以是,对于输入值大小Input_size是H ,矩阵乘法中有:
FLOPs = 2 × H × D × W = 2 × Input_size × Parameter
即可以简朴认为一个token的计算量是参数量的2倍