Model distillation | 111qqz的小窝

Deep Mutual Learning（相互学习）阅读笔记

Feb 18, 2018 · 1 min read · Model distillation Mutual Learning

原始论文 DNN在很多问题上效果很不错，但是由于深度和宽度过大，导致需要的执行时间和内存过大。我们需要讨论一些能快速执行并且对内存的需要不大的模型。已经有很多方法来做这件事，比较重要的是Model distillation（模型蒸馏）基于蒸馏的模型压缩的有效性是基于一个发现：小的网络有和大的网络一样的表达能力，只不过是更难以训练找到合适的参数。也就是说，难点在于优化(以找到合适的参数）而不在于网络的尺寸。蒸馏的模型的做法是把一个有效的(deep or/and wide) network 作为teacher network,让一个size 较小的 student network 模仿teacher network. 这样做的好 …

Read More