【发布时间】:2017-12-29 06:41:11
【问题描述】:
我是 python 新手.. 我在 redshift 中有我的数据,我想在 python 中更快地处理数据。 我使用 python 是因为我想运行各种算法并对这些数据进行各种计算,而这在 redshift 中是不可能的。 我看到了教程,但每次加载 python 都花费了太多时间。 这是我的代码:
import psycopg2
con=psycopg2.connect(dbname = "xxxx", host="redshifttest-icp.cooqucvshoum.us-west-2.redshift.amazonaws.com", port= "5439", user="xxxx", password= "xxxx")
cur = con.cursor()
a = "select * from xxxx ;"
import pandas as pd
df = pd.read_sql(a,con)
df = df.fillna(0)
df2=df2.fillna(0)
这工作得很好,但我想要一些可以帮助我更快地处理数据的方法.. 谁能帮帮我?
【问题讨论】:
-
你打算在这里做什么?如果您的数据源中的数据太大,您可以使用块来加载它,而不是传输整个数据。
-
我只是想知道各种加载数据的方法,但是从redshift,我的数据在redshift amazon
-
Redshift 在单个服务器上比 Python 快得多。建议将您的逻辑转换为 SQL 并在 Redshift 中运行。
-
“更快地处理数据”是什么意思?你想做什么?为什么要使用 pandas?如果您提供更多信息,您将获得更好的答案。随时编辑您的问题以提供更多详细信息。
-
@JohnRotenstein,我已经编辑了我的问题
标签: python amazon-web-services hadoop amazon-redshift data-science