-
原始论文 DNN在很多问题上效果很不错,但是由于深度和宽度过大,导致需要的执行时间和内存过大。我们需要讨论一些能快速执行并且对内存的需要不大的模型。 已经有很多方法来做这件事,比较重要的是Model distillation(模型蒸馏) 基于蒸馏的模型压缩的有效性是基于一个发现:小的网络有和大的网络一样的表达能力,只不过是更难以训练找到合适的参数。 也就是说,难点在于优化(以找到合适的参数)而不在于网络的尺寸。 蒸馏的模型的做法是把一个有效的(deep or/and wide) network 作为teacher network,让一个size 较小的 student network 模仿teacher network. 这样做的好 …
Read More