将 wikipedia-dump 导入 SQL 不完整答案

【问题标题】：Importing wikipedia-dump to SQL Incomplete将 wikipedia-dump 导入 SQL 不完整
【发布时间】：2019-09-17 17:41:33
【问题描述】：

我从http://download.wikipedia.com/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 下载了一个维基百科转储。将其解压缩到enwiki.xml 并运行php importDump.php < enwiki.xml。大约需要 2 天才能完成。不知何故，我的本地 mediawiki 的文章/页面/类别比在线 wiki 少得多。

select count(*) from page; 只给我691716。另一个很好的例子是我的本地 mediawiki 上缺少页面 United States。

我还尝试从https://en.wikipedia.org/wiki/Special:Export 导出一个小 xml，并使用 importDump.php 将 xml 插入 MySQL。结果看起来不错。没有缺页。

1.是我下载了错误的维基百科图像，还是当 xml 很大时导入过程出现问题？

我还根据this question on Stackoverflow 尝试了 mwdumper.jar 和 perl 脚本。即使我将页表更改为具有 page_counter 列，所有文章都缺少其内容。每个页面都在说：

此页面中目前没有文字。

2。 mwimport.perl 和 mwdumper.jar 过时了吗？

3.我在哪里可以获得完整的 Wikipedia 转储以及如何将转储正确导入 MySQL？

谢谢。

【问题讨论】：

【解决方案1】：

您可以在以下位置找到所有 Wikipedia（和兄弟项目）转储：

特别是，如果您正在寻找英文维基百科：

在那里，您可以根据需要找到几个转储。特别是我使用的是“pages-articles”，它包含所有命名空间中所有页面的最新修订：

还要考虑到大约每月生成一次新的转储。

【讨论】：

正如我在帖子中提到的，我使用的是 pages-articles。但是您使用哪种导入流程？似乎没有一个工作的。 importDump.php 似乎可以工作，但速度超级慢。
抱歉，我没有意识到您已经在使用好转储，我刚刚发现我可以使用单词latest 访问最新的转储。谢谢！另一方面，我不导入转储，我只是用它来解析它以查找拼写错误和其他类似的东西。但是，作为一个估计，我可以告诉你，在 Python 中仅解析西班牙语转储（未压缩，在 BZ2 中）大约需要 2 小时，它的大小约为英文转储的五分之一。
不用担心。仅供参考，我已经让 importDump.php 运行了将近一个星期，但我仍然完成了一半。
@zygimantus 是的，我做到了。我编写了自己的代码来做到这一点。
@LEAnhDung 如果可以的话，我很乐意分享，但那是公司代码。如果您只是在寻找 ML 的维基百科语料库，那么 huggingface.co/datasets/wikipedia 可能会有所帮助。