【问题标题】:Getting a specific "page" from the Wikipedia XML dump从 Wikipedia XML 转储中获取特定的“页面”
【发布时间】:2014-01-20 02:13:54
【问题描述】:

好的,这就是我需要的:

  • 我已下载并提取了完整的 Wikipedia XML 转储(>40GB,单个 XML 文件)
  • 我需要检索一个特定的 <page> 元素(例如条目“意大利”的页面)

我该怎么做? (最好使用 PHP 代码或一些现有的工具)

【问题讨论】:

  • @Dagon 好吧,很明显。重点是如何?你看,我真的很害怕处理如此大量的数据:速度呢? (搜索,鉴于没有排序,肯定会花费很长时间,不是吗?)另外,内存呢? (显然没有将整个文档加载到内存中)
  • 这方面有什么更新吗?

标签: php wikipedia


【解决方案1】:

无法保证页面的全部内容将按顺序定位,修订可能位于同一文件中的任何位置,甚至位于不同的 XML 文件中。

请使用web API's action=exportSpecial:Export。此处不添加链接,因为输出量很大。

【讨论】:

    猜你喜欢
    • 2012-10-21
    • 2012-05-29
    • 2020-11-22
    • 2023-03-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多