【发布时间】:2016-04-26 12:13:11
【问题描述】:
我正在使用 Apache PIG 处理一些数据,并在我的脚本末尾使用
store data into '/mypath/tempp2' using PigStorage('\t','-schema');
fs -getmerge /mypath/tempp2 /localpath/data.tsv;
这样我就有了一个 tsv 文件,我可以在 Pandas 中使用 read_csv(headers=0) 读取该文件。
问题在于tsv 文件现在包含第一行的标题(这很好),但也包含连接到第二行中第一个观察的架构,例如:
col1 col2 col3
{pigschema}0 1 2
假设第一行是[0,1,2]。因此,除非我在 read_csv 中使用 skiprows=1(丢失那一行),否则我的数据中会出现这种奇怪的观察结果。
所以我想知道是否有更好的方法来导出我的数据,同时获取标题。
非常感谢!
【问题讨论】:
-
谢谢!链接很旧,所以我希望现在有更好的解决方案
-
另外,我并不关心格式(csv 或其他 json),只要我可以将其加载到 pandas 并获得正确的标题
标签: python pandas dataframe apache-pig cloudera