从 Wikipedia XML 转储中获取静态 HTML 文件答案

【问题标题】：Obtaining static HTML files from Wikipedia XML dump从 Wikipedia XML 转储中获取静态 HTML 文件
【发布时间】：2012-05-29 14:39:51
【问题描述】：

我希望能够从我从WikiMedia dump page 下载的巨大（即使是压缩的）英文维基百科 XML 转储文件enwiki-latest-pages-articles.xml.bz2 中获取相对最新的静态 HTML 文件。似乎有很多可用的工具，尽管它们的文档很少，所以我不知道它们中的大多数是做什么的，或者它们是否与最新的转储保持同步。（我非常擅长构建可以通过相对较小的 HTML 页面/文件进行爬网的网络爬虫，尽管我对 SQL 和 XML 很糟糕，而且我不希望至少再过一年都能很好地使用它们。）我希望能够离线抓取从转储中获得的 HTML 文件，而无需求助于在线抓取维基百科。

有人知道从最近的 Wikipedia XML 转储中获取静态 HTML 文件的好工具吗？

【问题讨论】：

标签： xml-parsing screen-scraping web-crawler mediawiki wikipedia

【解决方案1】：

首先，import the data。然后使用DumpHTML 创建 HTML 文件。虽然理论上很简单，但由于涉及的数据量和 DumpHTML 有点被忽视，这个过程在实践中可能会很复杂，所以不要犹豫ask for help。

【讨论】：

另外，它可能需要数周或数月的时间。几年前我曾经导入过维基词典的转储，这些转储要小几个数量级，而且需要几天时间。在非常强大的机器上进行操作会有所帮助。我想知道是否有人可以告诉我们他们导入需要多长时间。
处理时间肯定是一个考虑因素。我可能会在某个时候获得一台功能强大的台式机，尽管我不知道这是否足以应对我们在这里谈论的规模。（我想知道是否有并行解决方案。）我知道有可用的静态 HTML 转储，尽管最近的是 2008 年的，远不理想。
如果只动态渲染渲染给定页面所需的部分，作为与离线自定义 Ubuntu 发行版捆绑在一起的脚本的一部分呢？ @hippietrail
@LukeStanley：如果没有相同版本的 MediaWiki、相同的扩展集、每个扩展的相同版本、相同的配置和相同的模板集，您将无法正确呈现 MediaWiki 页面.如果您可以使用不正确的渲染，那么您可以少用很多。
@hippietrail 如果这个 Vagrant VM 设置合适，那可能不会那么难！ mediawiki.org/wiki/Mediawiki-vagrant 但不太正确的渲染器可能是可以接受的，这取决于它有多不正确:)