【发布时间】:2019-09-17 17:41:33
【问题描述】:
我从http://download.wikipedia.com/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 下载了一个维基百科转储。将其解压缩到enwiki.xml 并运行php importDump.php < enwiki.xml。大约需要 2 天才能完成。不知何故,我的本地 mediawiki 的文章/页面/类别比在线 wiki 少得多。
select count(*) from page; 只给我691716。另一个很好的例子是我的本地 mediawiki 上缺少页面 United States。
我还尝试从https://en.wikipedia.org/wiki/Special:Export 导出一个小 xml,并使用 importDump.php 将 xml 插入 MySQL。结果看起来不错。没有缺页。
1.是我下载了错误的维基百科图像,还是当 xml 很大时导入过程出现问题?
我还根据this question on Stackoverflow 尝试了 mwdumper.jar 和 perl 脚本。即使我将页表更改为具有 page_counter 列,所有文章都缺少其内容。每个页面都在说:
此页面中目前没有文字。
2。 mwimport.perl 和 mwdumper.jar 过时了吗?
3.我在哪里可以获得完整的 Wikipedia 转储以及如何将转储正确导入 MySQL?
谢谢。
【问题讨论】:
标签: java mysql import wikipedia dump