PageRank


PageRank (正體)

Free Web Hosting with Website Builder
Google的工具条标示出中文维基百科首页的PageRank

PageRank网页排名,又称网页级别Google左侧排名佩奇排名。PageRank™是以公司创办人拉里·佩奇Larry Page)命名。是一种由搜索引擎根据网页之间相互的超链接计算的网页排名。它经常和搜索引擎优化有关。 PageRank系统被Google用来体现网页的相关性和重要性。Google的创始人拉里·佩奇谢尔盖·布林1998年斯坦福大学发明了这项技术。[1]

PageRank 通过网络浩瀚的超链接来往来确定一个页面的等级。Google 把从 A 页面到 B 页面的链接解释为 A 页面给B页面投票 Google 根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级,简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

目录

PageRank让链接来"投票"

一个页面的“得票数”由所有链向它的页面的重要性决定。到一个页面的超链接相当于对该页投一票。一个页面的 PageRank 是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有很多链入的页面会有很高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。

2005年初,Google 为网页链接推出一项新属性 nofollow,令网站管理员网志作者可以做出一些 Google 不会计算为投票的链接;这些链接不算作"投票"。nofollow 的设置可以抵制评论垃圾。

Google 工具条上的 PageRank 从 0 到 10。它似乎是一个对数标度算法。这个算法的细节是未知的。PageRank 是 Google 的商标,PageRank 技术已经申请专利

PageRank 算法中的点击算法是由 Jon Kleinberg 提出的。

PageRank算法

简单的

假设一个由4个页面组成的小团体:ABCD。如果所有页面都链向A,那么APR(PageRank)值将是BCD的和。

PR(A) = PR(B) + PR(C) + PR(D)

继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑D投出的票只有三分之一算到了A的 PageRank 上。

PR(A)= \frac{PR(B)}{2}+ \frac{PR(C)}{1}+ \frac{PR(D)}{3}

换句话说,根据链处总数平分一个页面的PR值。

PR(A)= \frac{PR(B)}{L(B)}+ \frac{PR(C)}{L(C)}+ \frac{PR(D)}{L(D)}

最后,所有这些被换算为一个百分比再乘上一个系数q。由于下面的算法,没有页面的PageRank会是0。所以,Google通过数学系统给了每个页面一个最小值1 − q

PR(A)=\left( \frac{PR(B)}{L(B)}+ \frac{PR(C)}{L(C)}+ \frac{PR(D)}{L(D)}+\,\cdots \right) q + 1 - q

所以一个页面的 PageRank 是由其他页面的PageRank计算得到。Google 不断的重复计算每个页面的 PageRank。如果您给每个页面一个随机 PageRank 值(非0),那么经过不断的重复计算,这些页面的 PR 值会趋向于正常和稳定。这就是搜索引擎使用它的原因。

完整的

这个方程式引入了随机浏览的概念,即有人上网无聊随机打开一些页面,点一些链接。一个页面的PageRank值也影响了它被随机浏览的概率。为了便于理解,这里假设上网者不断点网页上的链接,最终到了一个没有任何链出页面的网页,这时候上网者会随机到另外的网页开始浏览。

为了对那些有链出的页面公平,q = 0.15(q的意义见上文)的算法被用到了所有页面上, 估算页面可能被上网者放入书签的概率。

所以,这个等式如下:

{\rm PageRank}(p_i) = \frac{q}{N} + (1 -q) \sum_{p_j} \frac{{\rm PageRank} (p_j)}{L(p_j)}

p1,p2,...,pN是被研究的页面,M(pi)是链入pi页面的数量,L(pj)pj链出页面的数量,而N是所有页面的数量。

PageRank值是一个特殊矩阵中的特征向量。这个特征向量为


\mathbf{R} =
\begin{bmatrix}
{\rm PageRank}(p_1) \\
{\rm PageRank}(p_2) \\
\vdots \\
{\rm PageRank}(p_N)
\end{bmatrix}

R是等式的答案


\mathbf{R} =

\begin{bmatrix}
{q / N} \\
{q / N} \\
\vdots \\
{q / N}
\end{bmatrix}

+ (1-q)

\begin{bmatrix}
\ell(p_1,p_1) & \ell(p_1,p_2) & \cdots & \ell(p_1,p_N) \\
\ell(p_2,p_1) & \ddots & & \\
\vdots & & \ell(p_i,p_j) & \\
\ell(p_N,p_1) & & & \ell(p_N,p_N)
\end{bmatrix}

\mathbf{R}

如果pj不链向pi, 而且对每个j都成立时,\ell(p_i,p_j)等于 0

\sum_{i = 1}^N \ell(p_i,p_j) = 1,

这项技术主要的弊端是,旧的页面等级会比新页面高,因为新页面,即使是非常好的页面,也不会有很多链接,除非他是一个站点的子站点。

这就是 PageRank 需要多项算法结合的原因。PageRank 似乎倾向于维基百科页面,在条目名称的搜索结果中总在大多数或者其他所有页面之前。原因主要是维基百科内相互的链接很多,并且有很多站点链入。

Google 经常处罚恶意提高 PageRank 的行为。Google 究竟怎样区分正常的链接交换和不正常的链接堆积仍然是商业机密

参见

参考资料

外部链接







Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History