反向传播学习笔记
先说下自己目前很笼统的理解:
反向传播是用来快速计算梯度的一种方法;
过程大概是把计算过程用计算图表示,这样每一个中间步骤都有一个节点,每一个local gradient都会比较容易计算;
思想涉及 chain rule + 计算图 + 记忆化
因为计算不同自变量的偏导数会存在很多共同路径,这部分就只计算了一次,因此可以加快计算速度。
所以核心的东西大概是两点:
* 用计算图表示计算,局部gradient 替代繁琐的微积分计算
* 共同部分只计算一次,类似一个记忆化。