【发布时间】:2018-08-25 21:52:39
【问题描述】:
我有一个在 InnoDB 中大致定义如下的表:
create table `my_table` (
`time` int(10) unsigned not null,
`key1` int(10) unsigned not null,
`key3` char(3) unsigned not null,
`key2` char(2) unsigned not null,
`value1` float default null,
`value2` float default null,
primary key (`key1`, `key2`, `key3`, `time`),
key (`key3`, `key2`, `key1`, `time`)
) engine=InnoDB default character set ascii
partition by range(time) (
partition start values less than (0),
partition from20180101 values less than (unix_timestamp('2018-02-01')),
partition from20180201 values less than (unix_timestamp('2018-03-01')),
...,
partition future values less than MAX_VALUE
)
是的,列顺序与键顺序不匹配。
在 Python 中,我使用 500,000 行填充了一个 DataFrame(这可能不是最有效的方法,但可以作为数据看起来的示例):
import random
import pandas as pd
key2_values = ["aaa", "bbb", ..., "ttt"] # 20 distinct values
key3_values = ["aa", "ab", "ac", ..., "az", "bb", "bc", ..., "by"] # 50 distinct values
df = pd.DataFrame([], columns=["key1", "key2", "key3", "value2", "value1"])
idx = 0
for x in range(0, 500):
for y in range(0, 20):
for z in range(0, 50):
df.loc[idx] = [x, key2_values[y], key3_values[z], random.random(), random.random()]
idx += 1
df.set_index(["key1", "key2", "key3"], inplace=True)
(实际上,这个 DataFrame 是由多个 API 调用和大量数学运算填充的,但最终结果是相同的:一个巨大的 DataFrame,其中包含约 500,000 行和与 InnoDB 表匹配的键)
要将此 DataFrame 导入表中,我目前正在执行以下操作:
import time
import MySQLdb
conn = MySQLdb.connect(local_infile=1, **connection_params)
cur = conn.cursor()
# Disable data integrity checks -- I know the data is good
cur.execute("SET foreign_key_checks=0;")
cur.execute("SET unique_checks=0;")
# Append current time to the DataFrame
df["time"] = time.time()
df.set_index(["time"], append=True, inplace=True)
# Sort data in primary key order
df.sort_index(inplace=True)
# Dump the data to a CSV
with open("dump.csv", "w") as csv:
df.to_csv(csv)
# Load the data
cur.execute(
"""
load data local infile 'dump.csv'
into table `my_table`
fields terminated by ','
enclosed by '"'
lines terminated by '\n'
ignore 1 lines
(`key1`, `key2`, `key3`, `time`, `value`)
"""
)
# Clean up
cur.execute("SET foreign_key_checks=1;")
cur.execute("SET unique_checks=1;")
conn.commit()
在这方面的所有表现都还不错。我可以在大约 2 分钟内导入 500,000 行。如果可能的话,我想更快地做到这一点。
我是否缺少任何技巧或可以进行任何更改以将其缩短到 30-45 秒?
一些注意事项:
- 不知道对DataFrame中的列重新排序是否会影响性能。目前DataFrame中的列顺序与数据库不匹配
- 不知道改变数据库中列的顺序来匹配主键的顺序是否会影响性能(目前“时间”是第一位的,虽然它是索引的第四个键)
- 更改数据库配置可能很困难,因为我无法直接访问数据库服务器。我坚持使用已经存在的任何硬件和配置选项。任何性能改进都必须来自我的 Python 代码
- 我可以更改表定义(包括更改分区),但我希望尽可能避免这种情况,因为已经有大量历史数据并将其复制到另一个表需要很久。丢失这些数据是一种选择,但我宁愿避免
- 我无法使用
set sql_log_bin=0;,因为我没有数据库的SUPER权限
【问题讨论】:
-
既然你没有SUPER权限,这是RDS实例吗?如果是这样,EBS 卷大小是多少?如果它很小,默认情况下您可能没有足够的 IOPS。在我的 Macbook 上,我可以使用 LOAD DATA INFILE 每秒获得约 50,000 行。请参阅我的演示文稿Load Data Fast!
-
它实际上是由我公司的 DBA 管理的内部 MariaDB 服务器。从技术上讲,我可以提交一张 Jira 票,要求他们调整设置,但需要 2-3 周才能得到回复,而且回复通常是否定的。不幸的是,我不知道服务器的详细信息(磁盘大小、磁盘 I/O 等)
-
听起来它运行在性能非常低的硬件上,或者可能已经承受了高负载。无论哪种方式,这都不是可以在 Stack Overflow 上解决的问题。 Python 代码没有任何变化可以使 LOAD DATA INFILE 运行得比数据库服务器运行得更快。
-
严格来说并非如此。以主键顺序加载数据提高了
LOAD DATA INFILE的性能,SET unique_checks=0;也是如此。我现在正在执行测试,看看是否调整键以使time是最左边的主键会进一步提高性能(因为插入的所有行共享一次) -
你在写一个 500K 行的 csv 吗?还是一些更小的块? 2 分钟中有多少时间在构建 csv;负载数据是多少?
标签: python pandas innodb mysql-python