潘少   >   标签墙   >   Pagerank 标签

【翻译】Spark的分区机制的应用及PageRank算法的实现

2019-11-15


本文翻译自 https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html

佩奇排名(PageRank),又称网页排名谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在[搜索

hadoop下基于mapreduce实现pagerank算法

2019-07-21

摘要: PageRank,网页排名,又称网页级别、Google 左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以 Google 公司创办人拉里·佩奇(Larry Page)之姓来命名。Google 用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google 的创始人拉里·佩奇和谢尔盖·布林于 1998 年在斯坦福大学发明了这项技术。

PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级。Google 把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根据投票来源(甚至来源的来源,即链接到 A 页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

PageRank 的核心公式是:
PR(A)=(1-d)+d(PR(B)/C+PR(C)/C......PR(Z)/C)

  • PR(A)是指网页 A 的 PR 数值
  • PR(i)是链接向 A 页面的 i 页面的 PR 值
  • C 是网页 i 往其他页面输出的链接的数量
  • d 是一个常数,谷歌设置为 0.