文本相似度判断-simhash算法学习笔记

先放原始论文。。。以此表达对这个算法的敬意orz

论文链接

 

问题引出:

那天百度一面,frog学姐问了我如何判断两篇新闻稿的相似度的问题….我满篇口胡…也只是回答了一些诸如从图片上考虑。。或者去掉stop word之后得到特征向量然后计算余弦值之类得到传统想法。。。[……]

Read more