-
先放原始论文。。。以此表达对这个算法的敬意orz 论文链接 问题引出: 那天百度一面,frog学姐问了我如何判断两篇新闻稿的相似度的问题....我满篇口胡...也只是回答了一些诸如从图片上考虑。。或者去掉stop word之后得到特征向量然后计算余弦值之类得到传统想法。。。 今天看到了google在用的网页去重的算法(?。。。感觉好神奇。。。准备面试到现在,第一个让我感到惊异而不是套路的算法orz 对于处理**大规模文本(500字以上吧)**的时候效果很好。。。但是算法思想却又非常简单。 这才是算法的美丽之处吧。。。。leetcode上的那些纱布技巧也好意思叫算法。。。? 网页去重,其实本质还是网页相似度的计算....首先是两篇,之 …
Read More