（6）数据挖掘算法之PageRank

我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇，是因为本人是Google脑残粉。因了PageRank而Google得以成立，因了Google而这个世界变得好了那么一点点。

1. 引言

PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的，用来解决链接分析中网页排名的问题。在衡量一个网页的排名，直觉告诉我们：

当一个网页被更多网页所链接时，其排名会越靠前；
排名高的网页应具有更大的表决权，即当一个网页被排名高的网页所链接时，其重要性也应对应提高。

对于这两个直觉，PageRank算法所建立的模型非常简单：一个网页的排名等于所有链接到该网页的网页的加权排名之和：

（6）数据挖掘算法之PageRank

表示第

（6）数据挖掘算法之PageRank

个网页的PageRank值，用以衡量每一个网页的排名；若排名越高，则其PageRank值越大。网页之间的链接关系可以表示成一个有向图（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

，边

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

代表了网页

（6）数据挖掘算法之PageRank

链接到了网页

（6）数据挖掘算法之PageRank

；

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

为网页

（6）数据挖掘算法之PageRank

的出度，也可看作网页（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

的外链数（ the number of out-links）。

假定（6）数据挖掘算法之PageRank

为n维PageRank值向量，（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

为有向图

（6）数据挖掘算法之PageRank

所对应的转移矩阵，

（6）数据挖掘算法之PageRank

个等式

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

可改写为矩阵相乘：

但是，为了获得某个网页的排名，而需要知道其他网页的排名，这不就等同于“是先有鸡还是先有蛋”的问题了么？幸运的是，PageRank采用power iteration方法**了这个问题怪圈。欲知详情，请看下节分解。

2. 求解

为了对上述及以下求解过程有个直观的了解，我们先来看一个例子，网页链接关系图如下图所示：

（6）数据挖掘算法之PageRank

那么，矩阵（6）数据挖掘算法之PageRank

即为

（6）数据挖掘算法之PageRank

所谓power iteration，是指先给定一个（6）数据挖掘算法之PageRank

的初始值

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

，然后通过多轮迭代求解:

最后收敛于（6）数据挖掘算法之PageRank

，即差别小于某个阈值。我们发现式子

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

为一个特征方程（characteristic equation），并且解（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

是当特征值（eigenvalue）为（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

时的特征向量（eigenvector）。为了满足

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

是有解的，则矩阵

（6）数据挖掘算法之PageRank

应满足如下三个性质：

stochastic matrix，则行至少存在一个非零值，即必须存在一个外链接（没有外链接的网页被称为dangling pages）；
不可约（irreducible），即矩阵

所对应的有向图

（6）数据挖掘算法之PageRank

必须是强连通的，对于任意两个节点（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

，存在一个从

（6）数据挖掘算法之PageRank

到

（6）数据挖掘算法之PageRank

的路径；
非周期性（aperiodic），即每个节点存在自回路。

显然，一般情况下矩阵（6）数据挖掘算法之PageRank

这三个性质均不满足。为了满足性质stochastic matrix，可以把全为0的行替换为（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

，其中

（6）数据挖掘算法之PageRank

为单位向量；同时为了满足性质不可约、非周期，需要做平滑处理：

其中，（6）数据挖掘算法之PageRank

为 damping factor，常置为0与1之间的一个常数；（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

为单位阵。那么，式子

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

（6）数据挖掘算法之PageRank

被改写为

3. 参考资料

[1] Bing Liu and Philip S. Yu, "The Top Ten Algorithms in Data Mining" Chapter 6.

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode