【发布时间】:2012-05-29 14:39:51
【问题描述】:
我希望能够从我从WikiMedia dump page 下载的巨大(即使是压缩的)英文维基百科 XML 转储文件enwiki-latest-pages-articles.xml.bz2 中获取相对最新的静态 HTML 文件。似乎有很多可用的工具,尽管它们的文档很少,所以我不知道它们中的大多数是做什么的,或者它们是否与最新的转储保持同步。 (我非常擅长构建可以通过相对较小的 HTML 页面/文件进行爬网的网络爬虫,尽管我对 SQL 和 XML 很糟糕,而且我不希望至少再过一年都能很好地使用它们。)我希望能够离线抓取从转储中获得的 HTML 文件,而无需求助于在线抓取维基百科。
有人知道从最近的 Wikipedia XML 转储中获取静态 HTML 文件的好工具吗?
【问题讨论】:
标签: xml-parsing screen-scraping web-crawler mediawiki wikipedia