使用 PIG 进行文本解析答案

【问题标题】：Text parsing using PIG使用 PIG 进行文本解析
【发布时间】：2012-01-28 15:22:52
【问题描述】：

我是 PIG 的新手，对此不太了解。如何在 PIG 中解析文本？要读取字段的值，pig 中有一个位置参数的概念，例如 $0 对应于第一个字段，类似地，有没有可以读取整行的位置参数之类的功能。什么是 RADOOP，它到底可以在哪里使用？

【问题讨论】：

【解决方案1】：

您的问题表明您希望对数据进行某种交互模式，但该数据量很大。

RADOOP 是 R 和 Hadoop 的组合，它应该能够为您提供一个 GUI，通过使用 Hadoop Scale 处理的一些 R 统计分析来运行您的大数据。

同时，我建议您查看 Google-Refine (http://code.google.com/p/google-refine/)，您可以轻松下载并使用它运行您的数据证据流程。

借助 Google-Refine，您可以使用内置的文本、日期和数字函数轻松解析数据。您还可以使用 Jython 来进一步增强所需的功能。它可以处理大规模数据采样并使用内置 Facets 调查其特征。

R 也是一个很好的数据证据工具，具有良好的抽样和其他统计分析库。但是它的界面是基于命令行的，它是针对高级统计学家和分析师的，而不是针对普通用户的。

【讨论】：

【解决方案2】：

对于文本解析，首先可以阅读 PIG 的教程和 wordcount 示例。

以下链接：

【讨论】：

【解决方案3】：

我不太确定你在问什么。 Pig 有许多功能，例如 TOKENIZE 和正则表达式匹配/提取 UDF，它们很有帮助。当然，您也可以使用 Java 或 Python 编写任何您喜欢的文本处理代码并调用它。

【讨论】：

【解决方案4】：

我猜你是要求不要标记整行，只需将整行作为一个字段，对吧？

那么，我想你可以使用 PigStorage('\n')，使用 '\n' 作为字段分隔符，将整行视为一个字段。

我认为您的“RADOOP”是指 hadoop，对吗？第一步，您可以在本地模式下运行 pig，这意味着您不需要安装 hadoop。

【讨论】：