Non-local Neural Networks 阅读笔记
先粗略读了2遍orz.可能不够严谨,先写一些high-level的理解。
对于序列或者图片数据,如果想获得一个long-range的依赖,通常的做法是循环神经网络(对于序列)或者深层的卷积神经网络(对于图片数据)
但是循环操作(当前的处理依赖于前面有限的若干个)和卷积操作都是一种局部操作。
但是这种局部操作是有一些局限的,比如不好优化,计算代价比较大等。
这篇paper提出了non-local 这个操作。
non-local操作是计算机视觉中广泛使用的一种降噪算法,即non-local mean的一般化。
non-local operation被认为是一个可以被广泛使用的操作,几乎可以和当前神经网络的其他部件结合。
含有non-local opetation的一个基本操作单元我们称之为一个 non-local block
含有non-local block 的神经网络我们可以称之为Non-local Neural Networks
non-local operation是非常有效的,及时神经网络只有很少的几层(比如5)
non-local operation和《Attention is all you need》 中提出的self-attention是相似的
全连接操作可以看做non-local operation的一个特例。