【发布时间】:2020-07-23 07:26:47
【问题描述】:
请帮助我从远程 HDFS 读取镶木地板文件,即;在 python 中使用 Dask 或 pyarrow 在 Linux 服务器上设置?
如果除了上述两个选项之外还有其他更好的方法来做同样的事情,还建议我。
尝试以下代码
from dask import dataframe as dd
df = dd.read_parquet('webhdfs://10.xxx.xx.xxx:xxxx/home/user/dir/sample.parquet',engine='pyarrow',storage_options={'host': '10.xxx.xx.xxx', 'port': xxxx, 'user': 'xxxxx'})
print(df)
错误是
KeyError: "推断和指定存储选项之间的冲突:\n- 'host'\n- 'port'"
【问题讨论】:
标签: python dask parquet pyarrow webhdfs