【问题标题】:Obtaining static HTML files from Wikipedia XML dump从 Wikipedia XML 转储中获取静态 HTML 文件
【发布时间】:2012-05-29 14:39:51
【问题描述】:

我希望能够从我从WikiMedia dump page 下载的巨大(即使是压缩的)英文维基百科 XML 转储文件enwiki-latest-pages-articles.xml.bz2 中获取相对最新的静态 HTML 文件。似乎有很多可用的工具,尽管它们的文档很少,所以我不知道它们中的大多数是做什么的,或者它们是否与最新的转储保持同步。 (我非常擅长构建可以通过相对较小的 HTML 页面/文件进行爬网的网络爬虫,尽管我对 SQL 和 XML 很糟糕,而且我不希望至少再过一年都能很好地使用它们。)我希望能够离线抓取从转储中获得的 HTML 文件,而无需求助于在线抓取维基百科。

有人知道从最近的 Wikipedia XML 转储中获取静态 HTML 文件的好工具吗?

【问题讨论】:

    标签: xml-parsing screen-scraping web-crawler mediawiki wikipedia


    【解决方案1】:

    首先,import the data。然后使用DumpHTML 创建 HTML 文件。虽然理论上很简单,但由于涉及的数据量和 DumpHTML 有点被忽视,这个过程在实践中可能会很复杂,所以不要犹豫ask for help

    【讨论】:

    • 另外,它可能需要数周或数月的时间。几年前我曾经导入过维基词典的转储,这些转储要小几个数量级,而且需要几天时间。在非常强大的机器上进行操作会有所帮助。我想知道是否有人可以告诉我们他们导入需要多长时间。
    • 处理时间肯定是一个考虑因素。我可能会在某个时候获得一台功能强大的台式机,尽管我不知道这是否足以应对我们在这里谈论的规模。 (我想知道是否有并行解决方案。)我知道有可用的静态 HTML 转储,尽管最近的是 2008 年的,远不理想。
    • 如果只动态渲染渲染给定页面所需的部分,作为与离线自定义 Ubuntu 发行版捆绑在一起的脚本的一部分呢? @hippietrail
    • @LukeStanley:如果没有相同版本的 MediaWiki、相同的扩展集、每个扩展的相同版本、相同的配置和相同的模板集,您将无法正确呈现 MediaWiki 页面.如果您可以使用不正确的渲染,那么您可以少用很多。
    • @hippietrail 如果这个 Vagrant VM 设置合适,那可能不会那么难! mediawiki.org/wiki/Mediawiki-vagrant 但不太正确的渲染器可能是可以接受的,这取决于它有多不正确:)
    猜你喜欢
    • 2012-10-21
    • 2023-03-04
    • 1970-01-01
    • 1970-01-01
    • 2013-12-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-04
    相关资源
    最近更新 更多