【发布时间】:2012-01-28 15:22:52
【问题描述】:
我是 PIG 的新手,对此不太了解。如何在 PIG 中解析文本?要读取字段的值,pig 中有一个位置参数的概念,例如 $0 对应于第一个字段,类似地,有没有可以读取整行的位置参数之类的功能。什么是 RADOOP,它到底可以在哪里使用?
【问题讨论】:
-
是的,实际上是三个问题
标签: hadoop apache-pig
我是 PIG 的新手,对此不太了解。如何在 PIG 中解析文本?要读取字段的值,pig 中有一个位置参数的概念,例如 $0 对应于第一个字段,类似地,有没有可以读取整行的位置参数之类的功能。什么是 RADOOP,它到底可以在哪里使用?
【问题讨论】:
标签: hadoop apache-pig
您的问题表明您希望对数据进行某种交互模式,但该数据量很大。
RADOOP 是 R 和 Hadoop 的组合,它应该能够为您提供一个 GUI,通过使用 Hadoop Scale 处理的一些 R 统计分析来运行您的大数据。
同时,我建议您查看 Google-Refine (http://code.google.com/p/google-refine/),您可以轻松下载并使用它运行您的数据证据流程。
借助 Google-Refine,您可以使用内置的文本、日期和数字函数轻松解析数据。您还可以使用 Jython 来进一步增强所需的功能。它可以处理大规模数据采样并使用内置 Facets 调查其特征。
R 也是一个很好的数据证据工具,具有良好的抽样和其他统计分析库。但是它的界面是基于命令行的,它是针对高级统计学家和分析师的,而不是针对普通用户的。
【讨论】:
【讨论】:
我不太确定你在问什么。 Pig 有许多功能,例如 TOKENIZE 和正则表达式匹配/提取 UDF,它们很有帮助。当然,您也可以使用 Java 或 Python 编写任何您喜欢的文本处理代码并调用它。
【讨论】:
我猜你是要求不要标记整行,只需将整行作为一个字段,对吧?
那么,我想你可以使用 PigStorage('\n'),使用 '\n' 作为字段分隔符,将整行视为一个字段。
我认为您的“RADOOP”是指 hadoop,对吗?第一步,您可以在本地模式下运行 pig,这意味着您不需要安装 hadoop。
【讨论】: