-
20170504近况
May 4, 2017 · 1 min read啊。。在准备考试QAQ 明天约了鹅厂面试。。。然而从四月就开始一直考试考试考试....感觉药丸啊? MS的结果貌似明天也要出了orz... 之前没收到positive以为是跪了,结果听说有人没收到positive也拿到了offer啊? 以及,被之前拿到的某厂追加了类似sp之类的东西.... 虽然说实习工资什么的的确不是很重要,不过比初始的offer 多了60%的工资还是美滋滋的啊? 而且貌似是我们组的boss帮我争取到的T T 好感动啊。。。。 哦还有。。后半学期有门叫大数据与云计算的课。。。 大概是做一些,和hadoop,spark,caffe有关的实验orz 我本以为我虽然菜了一点。。。但是毕竟一直在linux环境下。。。 这些 …
Read More -
ubuntu 包管理(apt-get)损坏的解决办法
Apr 30, 2017 · 1 min read症状是不管安装什么,都会说有一大堆依赖无法安装。。。 大概是: a depends b[i],but b[i] is not be installed. (b==0..n) 最后会提示Unable to correct problems, you have held broken packages 解决办法:用synaptic工具,把可能存在问题的包都清除掉。 参考资料 顺便想吐槽。。。ubuntu的包管理工具好辣鸡啊。。 随便装点东西竟然就损坏了? 我刚才装chrome,然后出了错误,提示我apt-get -f install 解决问题。。。 然后包管理就挂了? 想起当年虽然装的第一个发行版是ubuntu,但是并不好用啊? 好好使 …
Read More -
我的chromebook 是 samsung 3 查阅Hardware Compatibility 可以知道我的cb支持 gallium,对应的cpu 是Intel Braswell 然后去galliumos 官网 下载相应版本。 (发现这种做法并不需要自己下载。。。) 安装 galliumOS大体有两种方法,一种是完全去掉chromeOS,这种方法需要需要拆机去除写保护。。。我嫌麻烦。。。于是打算另一种,使用chrx 步骤如下: 1. Enable [Developer …
Read More -
为什么。。。为什么会变成这样呢。。。
Apr 27, 2017 · 1 min read连着考试。。。 取消考试周这做法就是蠢。。。 白天上课晚上考试。。。 说得好像没有考试周大家就不会复习了一样。。。 结果就只能是在白天的课上复习。。。 又影响听新的课,又影响复习。。。。 然后昨天还推了鹅厂的面试。。。不知道会不会留下什么不好的印象T T 连着考试真心要死啊。。。 身体完全受不了。。。 这还只是期中。。。 想想我们前半学期学完了 文档+专业英语+信号+测试+uml+游戏+计网,7门课。。。。 那就意味着期末还有12门。。。。。。。。 感觉真的。。。。。。。为什么。。。要这么多课呢。。。。。。。
Read More -
2017年3月更新archlinux后没有声音问题的解决办法
Mar 16, 2017 · 1 min read系统信息: 表现为不管外放还是耳机。。都没有声音。。。 解决办法: pacmd set-card-profile alsa_card.pci-0000_00_1b.0 output:analog-stereo+input:analog-stereo 参考资料
Read More -
参考博客 计组块忘光了呜呜呜。。。来复习一波。。 1. LRU 1.1. 原理 LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”。 1.2. 实现 最常见的实现是使用一个链表保存缓存数据,详细算法实现如下: 1. 新数据插入到链表头部; 2. 每当缓存命中(即缓存数据被访问),则将数据移到链表头部; 3. 当链表满的时候,将链表尾部的数据丢弃。 1.3. 分析 【命中率】 当存在热点数据时,LRU的效率很好,但偶发性的、周期性的批量操作会导致LRU命中率急剧下降,缓存污染情况比较严重。 【复杂度】 实现简单。 【 …
Read More -
大数据top K 问题总结(转载)
Mar 14, 2017 · 2 min read转自:http://blog.csdn.net/v_july_v/article/details/6279498 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述(雪域之鹰): 算法思想:分而治 …
Read More -
前言: 其实有了前文simhash算法的基础,局部敏感hash算法已经不存在理解上的问题了吧。。。毕竟simhash算法应该是局部敏感哈希算法的一种。。所以我就直接转载几篇我认为比较好的文档结合一下好了。。。会把比较重要的概念或者定义标记重点。 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异。它的主要作用就是从海量的数据中挖掘出相似的数据,可以具体应用到文本相似度检测、网页搜索等领域。 1. 基本思想 局部敏感哈希的基本思想类似于一种空间域转换思 …
Read More -
面京东被这个问题卡了QAQ,来补补这方面的课。 转自:链接 蓄水池抽样算法随机算法的一种,用来从 N 个样本中随机选择 K 个样本,其中 N 非常大(以至于 N 个样本不能同时放入内存)或者 N 是一个未知数。其时间复杂度为 O(N),包含下列步骤 (假设有一维数组 S, 长度未知,需要从中随机选择 k 个元素, 数组下标从 1 开始), 伪代码如下: array R[k]; // result integer i, j; // fill the reservoir array for each i in 1 to k do R[i] := S[i] done; // replace elements with gradually …
Read More