【发布时间】:2014-06-16 02:38:12
【问题描述】:
我正在尝试在一组网页上实现PageRank 算法,为此我需要一个样本dataset 网页,以及与它们对应的网页图,该网页图表示页面之间的链接数据集包含的。
我需要网络图,以便获取转换矩阵并进行所需的计算。示例:
URL1 -> URL2
URL3390 -> URL5
URLxxxx 是一个 id,以某种方式映射到相应的网页
我的问题是:我如何/在哪里可以获得此资源(我在互联网上尝试了许多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制) ,如果我不能按原样拥有这个,你能给我一些建议吗?
更新:对于那些可能认为这个离题的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,而且不适合这种问题,感谢您的帮助。
【问题讨论】:
-
Same question on Software Rec.
-
@unor :是的,我发布了它
标签: database web-crawler search-engine pagerank inverted-index