从 Wikipedia XML 转储中获取特定的“页面”

【问题标题】：Getting a specific "page" from the Wikipedia XML dump从 Wikipedia XML 转储中获取特定的“页面”
【发布时间】：2014-01-20 02:13:54
【问题描述】：

好的，这就是我需要的：

我已下载并提取了完整的 Wikipedia XML 转储（>40GB，单个 XML 文件）
我需要检索一个特定的 <page> 元素（例如条目“意大利”的页面）

我该怎么做？（最好使用 PHP 代码或一些现有的工具）

【问题讨论】：

@Dagon 好吧，很明显。重点是如何？你看，我真的很害怕处理如此大量的数据：速度呢？（搜索，鉴于没有排序，肯定会花费很长时间，不是吗？）另外，内存呢？（显然没有将整个文档加载到内存中）
这方面有什么更新吗？

标签： php wikipedia

【解决方案1】：

无法保证页面的全部内容将按顺序定位，修订可能位于同一文件中的任何位置，甚至位于不同的 XML 文件中。

请使用web API's action=export 或Special:Export。此处不添加链接，因为输出量很大。

【讨论】：

猜你喜欢

2012-10-21
2012-05-29
2020-11-22
2023-03-04
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2023-02-09
下载 2021-06-24
下载 2022-12-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode