目前 Caffe
中的卷积是转换成矩阵乘法做的,主要依靠 BLAS 的 GEMM。发展到后期,要抠 performance 的时候,GEMM 变成了瓶颈,主要在两个方面:
- GEMM 占用 memory 大。举例来说,一个
3x3
的卷积操作,需要先通过im2col
把输入图像展开为$IW \times IH \times IC \times 9$ 的矩阵,再使用矩阵矩阵乘法来计算,比原图像多用$9$ 倍的内存。 - 存在计算效率比 GEMM 更高的算法。
目前的优化算法,主要存在两种思路:
IM2COL + GEMM
法- 直接卷积法
FFT 方法又分为两种:
- Radix-based FFT
- FB-FFT
Winograd FIR 公式:
$$O = O_{2\times2_3\times3}[(F_{2\times2_3\times3} F F^{T}{2\times2_3\times3}) .* (I{2\times2_3\times3} I I^{T}{2\times2_3\times3})]O^{T}{2\times2_3\times3}$$ 其中, $$F_{2\times2_3\times3} = \left[ \begin{matrix} 1.0 & 0.0 & 0.0 \ 0.5 & 0.5 & 0.5 \ 0.5 & -0.5 & 0.5 \ 0.0 & 0.0 & 1.0 \end{matrix} \right]{4\times3}$$ $$I{2\times2_3\times3} = \left[ \begin{matrix} 1.0 & 0.0 & -1.0 & 0.0 \ 0.0 & 1.0 & 1.0 & 0.0 \ 0.0 & -1.0 & 1.0 & 0.0 \ 0.0 & 1.0 & 0.0 & -1.0 \end{matrix} \right]{4\times4}$$ $$O{2\times2_3\times3} = \left[ \begin{matrix} 1.0 & 1.0 & 1.0 & 0.0 \ 0.0 & 1.0 & -1.0 & -1.0 \end{matrix} \right]_{2\times4}$$
For each (c, k)
in (C, K)
, we have:
AlexNet
各卷积层的
对
本步做 16 次矩阵乘法,每次是
得到的
For each
这是两个矩阵乘法:一个是
后向传播与前向的步骤相似,仅仅是 mirror
和 flip
操作,且输入和输出反置了,其余步骤与前向一致。下面仅给出每一步的计算量。
Weight Update 遵循基本类似的步骤,有两点不同:
- 变换阵不同,如下所示。
- Step 3 不同,所以这里的矩阵乘法规模显著变小,为
$C\times N * N\times K$ ;而且这里比前向传播步骤引入了更多的小矩阵乘法。 $$U = O_{3\times3_2\times2}(\sum_{i\in tiles}[(F_{3\times3_2\times2} O F^{T}{3\times3_2\times2}) \times (I{3\times3_2\times2} I I^{T}{3\times3_2\times2})])O^{T}{3\times3_2\times2}$$ 其中, $$F_{3\times3_2\times2} = \left[ \begin{matrix} 1.0 & 0.0 \ 0.5 & 0.5 \ 0.5 & -0.5 \ 0.0 & 1.0 \end{matrix} \right]{4\times2}$$ $$I{3\times3_2\times2} = \left[ \begin{matrix} 1.0 & 0.0 & -1.0 & 0.0\ 0.0 & 1.0 & 1.0 & 0.0 \ 0.0 & -1.0 & 1.0 & 0.0 \ 0.0 & -1.0 & 0.0 & 1.0 \end{matrix} \right]{4\times4}$$ $$O{3\times3_2\times2} = \left[ \begin{matrix} 1.0 & 1.0 & 1.0 & 0.0\ 0.0 & 1.0 & -1.0 & 0.0 \ 0.0 & 1.0 & 1.0 & 1.0 \end{matrix} \right]_{3\times4}$$
- 与
im2col
方法对batch
中的图像一个一个处理不同,Winograd FIR 是batch
处理这些图像的。 - Winograd FIR 不考虑 bias 的计算,需要另行处理。
- Winograd FIR 引入了大量的小矩阵运算,这些运算本质上是 SPMD 的。
- Winograd 由于每次计算 2x2 的输出,因此数据利用率比 im2col 方法高,communication cost 相对较小。
- Winograd FIR 对大矩阵 GEMM 的利用有限,仅在 batch GEMM 计算 point-wise multiplication 时会利用到。
写于 2016 年 8 月