【发布时间】:2020-04-22 10:56:49
【问题描述】:
我必须将数百万条记录加载到 redshift 数据库中(这是必须的),这样做最有效/最快的方法是什么?现在我正在创建一个字典,其中存储 chunks 行,这些行被转换为字符串,以便我可以将它们放在查询字符串中,然后使用 Pandas,例如:
with psycopg2.connect(prs.rs_conection_params_psycopg2) as conn:
with conn.cursor() as c:
c.execute(query_create_empty_main_table)
for chunk in df_chunks.keys():
query_to_insert_new_data = """
INSERT INTO {}
{}
VALUES
{};
""".format(table_name, column_names, df_chunks[chunk])
c.execute(q_inserting_new_data)
conn.commit()
该表每次都是从头开始创建的,因为它具有动态信息。
是否适合使用 Pyspark(如果可能)或 Parallel 模块?在那种情况下,怎么可能做到?谢谢,问候。
【问题讨论】:
标签: python-3.x pandas pyspark amazon-redshift