69阅读网

记住本站地址不迷路:www.69ydw.com
69阅读网 > 重生99,从给学霸当老师开始 > 第91章 这傢伙是个宝藏!

第91章 这傢伙是个宝藏!

“师兄早。”

余江坐到老爷机前,按下电源,风扇便疯狂转动。

这十年老拖拉机的动静,他敢打赌,那块赛扬566都应该属於“升级”。

“师兄啊————你们是用的什么电脑呢?”

“奔i1i800。”

见余江一副生无可恋的表情,閆师兄呵呵笑道:“你来晚了一点,本来有多的,后面老板感觉集群太吃力,就把那台奔3的放机房去了。”

“你们机房没用专门的伺服器啊?”

“是啊,全用的台式做集群————所以你知道我们条件多艰苦了吧?”閆师兄摇了摇头:“去年有人毕业证都不要就直接跑路了,实在受不了这玩意。”

余江:“————是够艰苦的。”

这会电脑已经打开,余江迅速输入密码,打开arxiv。

现在arxiv上占位性质的论文很多,但也能看到高质量、高数量且最新的论文。

这边,閆宏飞见他快速地用滑鼠划拉著篇幅,几乎几分钟就把一篇全英文的论文看完,隨后又打开另外一篇后,眼中惊讶顿升。

他这是读论文,还是在看网文?

怀著疑惑,閆宏飞起身,慢慢走到余江身后。

只见余江正在阅读一篇关於玻尔兹曼机的论文。

看得出来,余江看得很认真,但他翻页的速度依旧极快!

甚至閆宏飞都只来得及看清楚一个公式,余江就又翻页了!

閆宏飞只感觉头皮一阵发麻:“你看完了?”

“嗯。”余江回头,见閆宏飞满脸惊恐,马上意识到对方可能被自己看论文的速度嚇到了,连忙解释道:“就隨便翻了一下。”

閆宏飞却只是摇了摇头。

他当然愿意相信余江只是隨便翻了一下。

但隨便翻的状態,和认真的、快速看的状態,又怎会一样?

他又联想到这傢伙恐怖的分数————

沉默了几秒,他又想到昨天喻林的话。

“师弟,你对爬虫了解多少?”

余江回头:“了解了一点点,怎么?”

“就是即便加了节点,並行抓取也是重复,而且很慢。”閆宏飞望著余江:“有思路没?”

余江微微皱眉。

这位师兄好像是博一————

“嗯————师兄肯定去重没问题————”余江一边说著一边观察閆宏飞的表情,“要不我看看日誌?”

閆宏飞点头,隨即打开日誌。

余江从旁边拉过凳子,迅速查看日誌。

爬虫这玩意谁没玩过啊—一他当初写的验证lai123连结网站的小工具,如果加一道分析,就可以算爬虫了。

“师兄用的文件列表?”

“也试过hashset去重,但很快就爆內存。”

“url队列问题確实难搞。”余江点头,安静地思索了片刻。

閆宏飞也耐心地等待,只是眼神略有闪烁。

“hashset在url总量过高的时候確实会占用大量內存,文件列表吃i/0。

“1

閆宏飞就嘆了口气,他的办法是平均负载,但终归治標不治本。

余江转头望著閆宏飞。

“要不试试全局去重?”

閆宏飞一怔:“怎么全局,什么架构?”

“引入一个轻量master节点,专门维护一个全局bloomfilter做去重。”

“位数组大小按我们当前几千万网页规模留足余量,用几个独立哈希函数,误判率控制在千分之五以內就够用。worker节点本地先快速过滤,新提取的url再批量通过tcp发给master確认。”

“关键是per—hostbackqueues:master按主机名hash分桶,每个主机维护一个fifo队列和一个下次可抓时间————”

“————master本身用轻量內存结构,也没什么瓶颈。”

余江一边思索,一边慢慢地给出方案。

他同时也感慨。

这些在后世几乎算是搜寻引擎入门教科书一般的解决方案,在现在却是拦路虎一般的存在。

閆宏飞认真地听著,最后猛地望向余江。

“你之前干过?”

閆宏飞死死地盯著余江。

他完全不信,一个没有干过搜寻引擎的人,会在这么短时间內就给出近乎完整的解决方案!

余江轻轻咳了咳:“玩过爬虫,也玩过分布式————但分布式爬虫没玩过。”

“我晕!你上哪里玩的?”

余江一阵无语。

知道不把这帮师兄们震住,怕是每天都要问个不休了。

“师兄,非得要我说,我有个非常有钱的姐,她手底下有上百台p川志强伺服器吗?”

“靠!”

閆宏飞猛地起身。

这时,徐飞和彭波也正好进门。

“你俩来得正好!赶紧把他按住!”

二人同时一惊。

“閆哥你要干啥?”

閆宏飞是一愣,似乎也不知道自己起身干啥。

但他很快转头望向余江。

“师弟,能把你姐介绍给师兄吗?”

『记住本站地址 www.69ydw.com』