【发布时间】:2018-12-04 17:38:46
【问题描述】:
我的 teradata 表中有来自 6 个月电子邮件的数据(电子邮件属性,如发送日期、主题行以及收件人详细信息,如年龄、性别等,总共大约 20 列)。它总共大约有 2000 万,我想将其引入 Python 以进行进一步的预测建模。
我尝试使用“pyodbc”连接器运行选择查询,但它只能运行数小时和数小时。然后我停止了它并修改了查询以仅获取 1 个月的数据(可能是 3-4 百万),但仍然需要很长时间。
有没有比 'pyodbc' 更好(更快)的选项或完全不同的方法?
感谢任何输入。谢谢
【问题讨论】:
-
即使使用 ODBC 导出 2000 万行也不应该运行数小时,甚至数分钟。您是否将数据写入平面文件?然后 TPT 作业应该运行
-
您可以检查客户端是否禁用了 ODBC 跟踪和类似的调试功能,因为这些功能会大大减慢速度。