【问题标题】:Importing wikipedia-dump to SQL Incomplete将 wikipedia-dump 导入 SQL 不完整
【发布时间】:2019-09-17 17:41:33
【问题描述】:

我从http://download.wikipedia.com/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 下载了一个维基百科转储。将其解压缩到enwiki.xml 并运行php importDump.php < enwiki.xml。大约需要 2 天才能完成。不知何故,我的本地 mediawiki 的文章/页面/类别比在线 wiki 少得多。

select count(*) from page; 只给我691716。另一个很好的例子是我的本地 mediawiki 上缺少页面 United States

我还尝试从https://en.wikipedia.org/wiki/Special:Export 导出一个小 xml,并使用 importDump.php 将 xml 插入 MySQL。结果看起来不错。没有缺页。

1.是我下载了错误的维基百科图像,还是当 xml 很大时导入过程出现问题?

我还根据this question on Stackoverflow 尝试了 mwdumper.jar 和 perl 脚本。即使我将页表更改为具有 page_counter 列,所有文章都缺少其内容。每个页面都在说:

此页面中目前没有文字。

2。 mwimport.perl 和 mwdumper.jar 过时了吗?

3.我在哪里可以获得完整的 Wikipedia 转储以及如何将转储正确导入 MySQL?

谢谢。

【问题讨论】:

    标签: java mysql import wikipedia dump


    【解决方案1】:

    您可以在以下位置找到所有 Wikipedia(和兄弟项目)转储:

    https://dumps.wikimedia.org/backup-index.html

    特别是,如果您正在寻找英文维基百科:

    https://dumps.wikimedia.org/enwiki/

    在那里,您可以根据需要找到几个转储。特别是我使用的是“pages-articles”,它包含所有命名空间中所有页面的最新修订:

    https://dumps.wikimedia.org/enwiki/20190901/enwiki-20190901-pages-articles.xml.bz2

    还要考虑到大约每月生成一次新的转储。

    【讨论】:

    • 正如我在帖子中提到的,我使用的是 pages-articles。但是您使用哪种导入流程?似乎没有一个工作的。 importDump.php 似乎可以工作,但速度超级慢。
    • 抱歉,我没有意识到您已经在使用好转储,我刚刚发现我可以使用单词latest 访问最新的转储。谢谢!另一方面,我不导入转储,我只是用它来解析它以查找拼写错误和其他类似的东西。但是,作为一个估计,我可以告诉你,在 Python 中仅解析西班牙语转储(未压缩,在 BZ2 中)大约需要 2 小时,它的大小约为英文转储的五分之一。
    • 不用担心。仅供参考,我已经让 importDump.php 运行了将近一个星期,但我仍然完成了一半。
    • @zygimantus 是的,我做到了。我编写了自己的代码来做到这一点。
    • @LEAnhDung 如果可以的话,我很乐意分享,但那是公司代码。如果您只是在寻找 ML 的维基百科语料库,那么 huggingface.co/datasets/wikipedia 可能会有所帮助。
    猜你喜欢
    • 1970-01-01
    • 2011-04-26
    • 1970-01-01
    • 1970-01-01
    • 2019-10-19
    • 2010-10-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多