【发布时间】:2019-12-21 08:10:56
【问题描述】:
我正在使用带有 pyarrow 库的 python,我想在 HDFS 上编写一个 pandas 数据帧。这是我的代码
import pandas as pd
import pyarrow as pa
fs = pa.hdfs.connect(namenode, port, username, kerb_ticket)
df = pd.DataFrame(...)
table = pa.Table.from_pandas(df)
根据文档,我应该使用以下代码在 HDFS 上编写 pyarrow.Table
import pyarrow.parquet as pq
pq.write_parquet(table, 'filename.parquet')
我不明白我应该在哪里使用我的连接 (fs),因为如果我不在 write_parquet 中使用它,那么它怎么会知道 HDFS 在哪里?
【问题讨论】: