【问题标题】:Where to get a web graph with corresponding web pages dataset从哪里获取带有相应网页数据集的网络图
【发布时间】:2014-06-16 02:38:12
【问题描述】:

我正在尝试在一组网页上实现PageRank 算法,为此我需要一个样本dataset 网页,以及与它们对应的网页图,该网页图表示页面之间的链接数据集包含的。

我需要网络图,以便获取转换矩阵并进行所需的计算。示例:

URL1 -> URL2
URL3390 -> URL5

URLxxxx 是一个 id,以某种方式映射到相应的网页

我的问题是:我如何/在哪里可以获得此资源(我在互联网上尝试了许多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制) ,如果我不能按原样拥有这个,你能给我一些建议吗?

更新:对于那些可能认为这个离题的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,而且不适合这种问题,感谢您的帮助。

【问题讨论】:

  • Same question on Software Rec.
  • @unor :是的,我发布了它

标签: database web-crawler search-engine pagerank inverted-index


【解决方案1】:

可能是 Site Visualizer 是您正在寻找的工具。该应用程序具有generate visual sitemap的功能。

下载并安装应用程序(标准版或专业版),点击创建新项目工具按钮,输入您需要抓取的网站的网址,然后点击开始按钮。

爬取完成后,点击Visual Sitemap选项卡上的绘制按钮。网站的图表将绘制为一组页面(矩形)和链接(带箭头的线)。单击一个框以选择特定页面并突出显示其出站链接:

您可以使用All Links report(在报告选项卡上)获取网站所有链接的数据集。 'From URL' 和 'To URL' 列是你需要的。

除此之外,您还可以使用特定的 SQL 查询来表示已抓取网站的页面或链接的数据集。例如,转到 Database 选项卡,键入以下查询并单击 Execute 工具按钮:

SELECT * FROM links WHERE link_type='A'

结果集将仅包含 A-tag 链接,不包括图像、CSS 文件、JS 等。

该程序具有功能齐全的 30 天试用期,因此您可以免费执行任务。

【讨论】:

  • 感谢@Oleg的anwser,确实非常有用我刚刚测试过它,但我仍然无法将地图导出到可以同时拥有网页和之间链接的文件它们,XML 站点地图只提供 URL,我的意思是它们之间没有关系。有没有办法我可以做到这一点?
  • 运行您需要的报告(例如,所有链接报告),选择结果集中的所有行 (Ctrl+A),然后复制 (Ctrl+C)。之后,您可以将数据粘贴到 MS Excel 工作表中,或者像这样。
  • 再次感谢,这绝对有效,我还有最后一个问题,我可以用它来抓取本地存储的网页吗??
  • 不,你不能。只有网站的页面。
【解决方案2】:

您可以尝试搜索用于 PageRank 论文补充信息的数据集。这是一个例子: 本文:http://langvillea.people.cofc.edu/ReorderingPageRank.pdf

使用此数据集: http://www.cs.cornell.edu/Courses/cs685/2002fa/data/gr0.California 它应该包含 9,664 个节点和 16,773 个链接。链接位于文件的末尾,其连接格式似乎与您要查找的内容相似。

从此页面(也有其他数据集): http://www.cs.cornell.edu/Courses/cs685/2002fa/

这里还有一些其他页面汇总了网络数据集:

  1. http://snap.stanford.edu/data/,具体见 http://snap.stanford.edu/data/web-Stanford.html
  2. http://www.datawrangling.com/some-datasets-available-on-the-web
  3. http://networkdata.ics.uci.edu/resources.php

祝你好运!

【讨论】:

  • 对于cs.cornell.edu/Courses/cs685/2002fa/data/gr0.California 在哪里可以找到内容,我的意思是文件中提到的网页,要下载到我的机器上?
  • 最简单的方法可能是编写一个命令行脚本将 URL 传递给 curl。 'curl -L > file.txt' 会将网页内容放入文件中。大多数这些 URL 都需要“-L”以允许重定向。
猜你喜欢
  • 2011-11-02
  • 1970-01-01
  • 1970-01-01
  • 2020-05-05
  • 1970-01-01
  • 2013-12-19
  • 1970-01-01
  • 2023-03-26
相关资源
最近更新 更多