文章 56
评论 98
浏览 271517
关于

关于

大名潘建锋,小名嘛,好像也没有。生在潮汕,长在潮汕,平平静静生活,普普通通生长,偶有微澜,不提也罢; 糊里糊涂去了武汉上大学,似懂非懂选了计算机专业。 混迹过潮汕、武汉、深圳,如今来到了北京做一只呆萌的后台程序猿,变成了北漂。每天工作的时候就写写业务代码,业余的时候呢就写写自己喜欢的代码,然后读读书、跑跑步、看看动漫、拍拍照、听听歌,致力于让自己的生活变得精致且快乐,脚踏实地的同时,偶尔也仰望一下星空。

hadoop下基于mapreduce实现pagerank算法

hadoop下基于mapreduce实现pagerank算法

摘要: PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。 PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。 PageRank的核心公式是: PR(A)=(1-d)+d(PR(B)/C+PR(C)/C……PR(Z)/C) - PR(A)是指网页A的PR数值 - PR(i)是链接向A页面的i页面的PR值 - C是网页i往其他页面输出的链接的数量 - d是一个常数,谷歌设置为0.

鲜衣怒马提银枪,一日看尽长安花,此间少年。