【问题标题】:Text parsing using PIG使用 PIG 进行文本解析
【发布时间】:2012-01-28 15:22:52
【问题描述】:

我是 PIG 的新手,对此不太了解。如何在 PIG 中解析文本?要读取字段的值,pig 中有一个位置参数的概念,例如 $0 对应于第一个字段,类似地,有没有可以读取整行的位置参数之类的功能。什么是 RADOOP,它到底可以在哪里使用?

【问题讨论】:

  • 是的,实际上是三个问题

标签: hadoop apache-pig


【解决方案1】:

您的问题表明您希望对数据进行某种交互模式,但该数据量很大。

RADOOP 是 R 和 Hadoop 的组合,它应该能够为您提供一个 GUI,通过使用 Hadoop Scale 处理的一些 R 统计分析来运行您的大数据。

同时,我建议您查看 Google-Refine (http://code.google.com/p/google-refine/),您可以轻松下载并使用它运行您的数据证据流程。

借助 Google-Refine,您可以使用内置的文本、日期和数字函数轻松解析数据。您还可以使用 Jython 来进一步增强所需的功能。它可以处理大规模数据采样并使用内置 Facets 调查其特征。

R 也是一个很好的数据证据工具,具有良好的抽样和其他统计分析库。但是它的界面是基于命令行的,它是针对高级统计学家和分析师的,而不是针对普通用户的。

【讨论】:

    【解决方案2】:

    对于文本解析,首先可以阅读 PIG 的教程和 wordcount 示例。

    以下链接:

    1. Pig tutorial

    2. Wordcount example - 阅读此链接中的 wordcount 示例并关联教程中给出的命令。

    【讨论】:

      【解决方案3】:

      我不太确定你在问什么。 Pig 有许多功能,例如 TOKENIZE 和正则表达式匹配/提取 UDF,它们很有帮助。当然,您也可以使用 Java 或 Python 编写任何您喜欢的文本处理代码并调用它。

      【讨论】:

        【解决方案4】:

        我猜你是要求不要标记整行,只需将整行作为一个字段,对吧?

        那么,我想你可以使用 PigStorage('\n'),使用 '\n' 作为字段分隔符,将整行视为一个字段。

        我认为您的“RADOOP”是指 hadoop,对吗?第一步,您可以在本地模式下运行 pig,这意味着您不需要安装 hadoop。

        【讨论】:

        • 我想访问特定的行假设第 10 行我会怎么做我问那个。不,我的意思是仅 RADOOP...
        猜你喜欢
        • 2023-03-14
        • 1970-01-01
        • 1970-01-01
        • 2013-03-03
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多