PCA + kmeans

先记录一下PCA实战需要用到的安装包(arch下,python2环境)

python2-scikit-learn

python2-numpy

python2-pandas

python2-matplotlib

python2-seaborn

pandas.DataFrame

pandas 数据结构介绍

 

几个和科学计算数据分析有关的重要的python库: NumpyMatplotlib ,pandas

(之前数字图像处理课程都接触过了orz)

其中matplotlib 主要用于图像绘制

sklearn 是用于机器学习的python 模块

Seaborn也是用于图像绘制

 

 

str.fomat() 是 python2语法

format中的变量会按照str中{} 出现的顺序替换

 

 

 

 

PCA+kmeans 时间对比:

代码:

 

Deep Learning Tutorial – PCA and Whitening

说下我自己的理解

PCA:主成分分析,是一种预处理手段。对于n维的数据,通过一些手段,把变化显著的k个维度保留,舍弃另外n-k个维度。对于一些非监督学习算法,降低维度可以有效加快运算速度。而n-k个最次要方向的丢失带来的误差不会很大。

PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

whitening:是一种预处理手段,为了解决数据的冗余问题。比如如果数据是一个1616的图像,raw data 有1616=256维度,但是实际上这256个维度不是相互独立的,相邻的像素位置实际上有大关联!

继续阅读“Deep Learning Tutorial – PCA and Whitening”