【问题标题】:How to import a large wikipedia sql file into a mysql database?如何将大型维基百科 sql 文件导入 mysql 数据库?
【发布时间】:2012-05-28 07:42:10
【问题描述】:

我需要一个包含“主题”的数据库表,所以我下载了维基百科的 sql 类别文件(http://dumps.wikimedia.org/enwiki/latest/ 上的 enwiki-latest-category.sql.gz)

文件为 74MB(解压后),但 mysql 限制为 32MB。如何导入此文件?

顺便说一句:我尝试了 bigdump (http://www.ozerov.de/bigdump/),但它似乎也有 32MB 的导入限制。

【问题讨论】:

  • 我会在文本编辑器中打开文件并删除一堆。问题在大约 15 秒内解决。
  • 不能更改限制吗?我确信在 MySQL 配置中的某个地方有一个选项。
  • 您是如何尝试导入文件的?您是否尝试导入本地 mysql?
  • 我正在尝试通过创建一个新表将 SQL 文件导入到我现有的数据库中。
  • 克里斯,在文本编辑器中编辑文件是一场噩梦,因为它太大了!

标签: php mysql sql wikipedia


【解决方案1】:

您可以将其拆分为 32MB 并单独导入。应该不会太费时间。

【讨论】:

    【解决方案2】:

    如果你在 Windows 桌面上安装了 mysql,我有一些疯狂的东西你可能想尝试一下。

    请在您本地的mysql盒子上执行以下步骤

    • 步骤 01) 解压文件 enwiki-latest-category.sql.gz 到 enwiki-latest-category.sql

    • 步骤 02) CREATE DATABASE mycat;

    • 步骤 03) `mysql -u... -p... -Dmycat

    • 步骤 04) 为类别导出 CREATE TABLE

      mysqldump -u... -p... --no-data mycat category > category_00.sql

    • 步骤 05) 将数据转储为 10 个部分。由于 AUTO_INCREMENT 为 134526529,因此将其四舍五入为 135000000(1.35 亿)。一次转储 20%(2700 万)

    使用--where选项对cat_id运行5个mysqldumps

    mysqldump -u... -p... --no-create-info mycat category --where="cat_id <=  27000000"                         | gzip > category_01.sql.gz
    mysqldump -u... -p... --no-create-info mycat category --where="cat_id  >  27000000 AND cat_id <=  54000000" | gzip > category_02.sql.gz
    mysqldump -u... -p... --no-create-info mycat category --where="cat_id  >  54000000 AND cat_id <=  81000000" | gzip > category_03.sql.gz
    mysqldump -u... -p... --no-create-info mycat category --where="cat_id  >  81000000 AND cat_id <= 108000000" | gzip > category_04.sql.gz
    mysqldump -u... -p... --no-create-info mycat category --where="cat_id  > 108000000"                         | gzip > category_05.sql.gz
    

    上传这6个文件,解压,依次加载。

    试试看!!!

    【讨论】:

      猜你喜欢
      • 2012-09-01
      • 1970-01-01
      • 2016-05-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-04-18
      • 2011-02-06
      • 1970-01-01
      相关资源
      最近更新 更多