【发布时间】:2020-03-02 20:20:41
【问题描述】:
是否可以将 Pandas 数据帧从 ORC 文件转换为 ORC 文件?我可以在 parquet 文件中转换 df,但该库似乎不支持 ORC。 Python中有可用的解决方案吗?如果没有,最好的策略是什么?一种选择是使用外部工具将 parquet 文件转换为 ORC,但我不知道在哪里可以找到它。
【问题讨论】:
-
您使用的是 Hive 还是 Spark(或两者都使用)?如果你有其中之一,那么做你想做的事情就会容易得多,而且没有错误。特别是,我强烈建议您使用 Hive 来管理您的 ORC 文件。您可以使用 pyodbc 或 pyhive 包在 python 中连接到它。
-
@alcor 我刚刚完成了 C++ 和 Python 中的 ORC 适配器,因此如果您使用我的 fork,现在可以编写 ORC 文件:github.com/mathyingzhou/arrow。