【发布时间】:2013-06-17 20:20:22
【问题描述】:
我正在玩 hortonworks 沙盒来学习 hadoop 等。
我正在尝试在单机“集群”上加载文件:
A = LOAD 'googlebooks-eng-all-3gram-20090715-0.csv' using PigStorage('\t')
AS (ngram:chararray, year:int, count1:int, count2:int, count3:int);
B = LIMIT A 10;
Dump B;
不幸的是,该文件对于我的 VM 上的内存来说有点太大了..
我想知道是否可以 LOAD .csv 文件的子集?
这样的事情可能吗:
LOAD 'googlebooks-eng-all-3gram-20090715-0.csv' using PigStorage('\t') LOAD ONLY FIRST 100MB?
【问题讨论】:
标签: csv hadoop nosql apache-pig