【发布时间】:2014-01-20 02:13:54
【问题描述】:
好的,这就是我需要的:
- 我已下载并提取了完整的 Wikipedia XML 转储(>40GB,单个 XML 文件)
- 我需要检索一个特定的
<page>元素(例如条目“意大利”的页面)
我该怎么做? (最好使用 PHP 代码或一些现有的工具)
【问题讨论】:
-
@Dagon 好吧,很明显。重点是如何?你看,我真的很害怕处理如此大量的数据:速度呢? (搜索,鉴于没有排序,肯定会花费很长时间,不是吗?)另外,内存呢? (显然没有将整个文档加载到内存中)
-
这方面有什么更新吗?