-
其实我觉得这部分可以直接黑箱。。。直接无脑上Leaky ReLU或者Maxou?不过对这些激活函数的特点有个high-level的了解应该总是没坏处的,只要别太纠结细节就好了把。。 每个激活函数(或非线性函数)的输入都是一个数字,然后对其进行某种固定的数学操作。下面是在实践中可能遇到的几种激活函数: ———————————————————————————————————————— 左边是Sigmoid非线性函数,将实数压缩到[0,1]之间。右边是tanh函数,将实数压缩到[-1,1]。 ———————————————————————————————————————— **Sigmoid。**sigmoid非线性函数的数学公式是 , …
Read More -
想要修改tensorflow-slim 中 nets中的某个model,例如明明为kk_v2.py 观察到train_image_classifier.py中调用模型的部分 network_fn = nets_factory.get_network_fn( FLAGS.model_name, num_classes=(dataset.num_classes - FLAGS.labels_offset), weight_decay=FLAGS.weight_decay, is_training=True) 调用了nets_factory.get_network_fn,get_network如下: def …
Read More -
原始论文 翻译链接 **——前言:**作者认为残差连接在训练深度卷积模型是很有必要的。至少在图像识别上,我们的研究似乎并不支持这一观点。 摘要: 近年来,深度卷积神经网络对图像识别性能的巨大提升发挥着关键作用。以Inception网络为例,其以相对较低的计算代价取得出色的表现。最近,与传统结构相结合的残差连接网络在2015ILSVRC挑战赛上取得非常优异的成绩;它的性能跟最新的Inception-v3 网络非常接近。因此也就引出了结合残差连接的Inception结构能否对性能进行提高的问题。本文给出实验证明,残差连接可以明显加速Inception网络的训练。同时实验也证明,相比没有残差连接的消耗相似的Inception网络,残 …
Read More -
课程链接 知乎翻译链接 之前看的原版,后来发现知乎上有翻译,正好想到之前看完没有整理总结,干脆就写一下自己的理解,顺便贴一下课程翻译(感觉翻译的质量好像还可以? 分类器就是一个函数,自变量是图像信息,因变量是类别信息。 比如线性分类器,SVM,softmax 不同的分类器有着不同的score function,对应着不同的cost function. 之所以选择不同的cost function的原因是,要保证cost funtion是凸函数,不然会存在很多局部极值。 分类器使得分类问题变成了一个优化问题,在最优化过程中,将通过更新评分函数的参数来最小化损失函数值。 然后,所谓overfit,就是参数太多而训练集太小,导致可以完美符合 …
Read More -
py的源码看起来还是很愉快的。。。(虽然熟练成程度完全不如cpp。。。。 datasets里是数据集相关 deployment是部署相关 nets里给了很多网络结构 preprocessing给了几种预处理的方式 这些都和slim没有太大关系,就不多废话了。 分析的部分见代码注释... 由于刚刚入门machine learning 一周...还有很多内容还没有从理论层面接触...所以源码的理解也十分有限...希望能以后有机会补充一波 1 # Copyright 2016 The TensorFlow Authors. All Rights Reserved. 2 # 3 # Licensed under the Apache …
Read More -
参考资料 机器学习中梯度下降(Gradient Descent, GD)算法只需要计算损失函数的一阶导数,计算代价小,非常适合训练数据非常大的应用。 梯度下降法的物理意义很好理解,就是沿着当前点的梯度方向进行线搜索,找到下一个迭代点。但是,为什么有会派生出 batch、mini-batch、online这些GD算法呢? 原来,batch、mini-batch、SGD、online的区别在于训练数据的选择上: ** ** **batch** **mini-batch** **Stochastic** **Online** **训练集** 固定 固定 固定 实时更新 **单次迭代样本数** 整个训练集 训练集 …
Read More -
说下我自己的理解 PCA:主成分分析,是一种预处理手段。对于n维的数据,通过一些手段,把变化显著的k个维度保留,舍弃另外n-k个维度。对于一些非监督学习算法,降低维度可以有效加快运算速度。而n-k个最次要方向的丢失带来的误差不会很大。 PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。 whitening:是一种预处理手段,为了解决数据的冗余问题。比如如果数据是一个16_16的图像,raw data 有16_16=256维度,但是实际上这256个维度不是相互独立的,相邻的像素位置实际上有大关联! …
Read More -
先放原始论文。。。以此表达对这个算法的敬意orz 论文链接 问题引出: 那天百度一面,frog学姐问了我如何判断两篇新闻稿的相似度的问题....我满篇口胡...也只是回答了一些诸如从图片上考虑。。或者去掉stop word之后得到特征向量然后计算余弦值之类得到传统想法。。。 今天看到了google在用的网页去重的算法(?。。。感觉好神奇。。。准备面试到现在,第一个让我感到惊异而不是套路的算法orz 对于处理**大规模文本(500字以上吧)**的时候效果很好。。。但是算法思想却又非常简单。 这才是算法的美丽之处吧。。。。leetcode上的那些纱布技巧也好意思叫算法。。。? 网页去重,其实本质还是网页相似度的计算....首先是两篇,之 …
Read More