使用 Hadoop Map-Reduce 去除不可打印的字符答案

【问题标题】：Strip non-printable characters using Hadoop Map-Reduce使用 Hadoop Map-Reduce 去除不可打印的字符
【发布时间】：2013-11-28 13:52:11
【问题描述】：

我正在尝试处理具有不可打印字符的 HDFS 文件。我希望使用 MapReduce 去除这些字符。

我曾尝试使用 Pig TextLoader 和 MR TextInputFormat（IN MR 程序），结果是从遇到不可打印字符的位置将记录拆分为多个。以下是样本数据：

===数据==（2条记录）=

 4614:2011-12-20-08.45.08.169176^2011-12-20-18.15.08.100008^597^0^57^ZUKA^Grase^^^Grase,Dr^^^N^N^N^Dr^KG^ONLY INFORMATION ENTERED^UNKNOWN^0     ^      ^^^611190362
ï¿½^0^^^^^^0^Grase,Dr^^^, ,^^^^^^597^^^<fnm>DR</fnm><lnm>GRASE</lnm>^^^^^^^^SINGLE^0^0
6063:2010-07-04-04.00.00.100001^2010-07-04-04.01.00.180144^017^0^095^WEETE    ^Wien^^^Wien,Colock^^^N^N^N^Colock^KG^ONLY INFORMATION ENTERED^UNKNOWN^0     ^      ^295111915^^ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½9905^0^^^^^^0^Wien,Colock^40001 KIN RD^300 CAMORE ST^500 BLACK AVE^Woesfield, HA, 43723.^John Ball^^^25719110^617^ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½9905^^<fnm>COLOCK</fnm><lnm>WIEN</lnm>^^^^^^^^SINGLE^0^0

[在less编辑器中，带有特殊字符的列的第一条记录如下：

611190362^M<EF><BF><BD>]

在 vi 或更少的情况下，第一条记录在一行中，但在读取 MR 或 pig 时，由于这些字符的存在，该记录会被拆分。

我想避免在从 HDFS 读取数据时将记录拆分为新行，并进一步希望处理这些记录以消除这些特殊字符。

这是我尝试过的基本 UDF（下面的 sn-p）。虽然，该程序正在剥离大于 0x80 的字符，但会在拆分的记录上执行剥离。

任何帮助/指针将不胜感激！

        /*
     * 
     * Pig Code:
     * register '/basepath/udf/DIF.jar'
    rel1 = LOAD '/user/home/test' USING USING TextLoader();
    rel2 = FOREACH rel1 GENERATE StripNonPrintable(s) as recordline;
    dump rel2;

     * 
     */

  //Imports    

    public class StripNonPrintable extends EvalFunc<String>
    {
         public String exec(Tuple input) throws IOException {
             if (input == null || input.size() == 0)
                 return null;
             try{

                    String s = new String();
                     s = (String)input.get(0);
                    //s = "2001-12-20-08.45.08.169176^2001-12-20-08.45.08.131408^597^0^57^ZUCKA^Grase^^^Grase,Dr^^^N^N^N^Dr^KG^ONLY INFORMATION ENTERED^UNKNOWN^0     ^      ^^^6785790362ï¿½^0^^^^^^0^Grase,Dr^^^, ,^^^^^^597^^^<fnm>DR</fnm><lnm>GRASE</lnm>^^^^^^^^SINGLE^0^0";

                    int length = s.length();
                    char[] oldChars = new char[length];
                    s.getChars(0, length, oldChars, 0);
                    int newLen = 0;
                    for (int j = 0; j < length; j++) {
                        char ch = oldChars[j];
                        if (ch < 0x80  ) {
                            oldChars[newLen] = ch;
                            newLen++;
                        }
                    }
                    s = new String(oldChars, 0, newLen);

                    //System.out.println("New String = \n " + s);

                    return s;
             }catch(Exception e){
                 return null ;
             }
         }

     }

【问题讨论】：

投票 ;) 是的，我当时应该接受，但不知何故错过了。
这是一个很好的答案，因为它幸存至今:-)

标签： java string hadoop mapreduce apache-pig

【解决方案1】：

包裹java.lang.Character。有一个函数getType：

返回一个值，指示字符的一般类别

导入java.lang.Character 并替换：

if (ch < 0x80  )

使用以下代码：

int c = Character.getType(ch);
if(c != Character.CONTROL || 
            c != Character.CONNECTOR_PUNCTUATION || 
            c != Character.CURRENCY_SYMBOL || 
            c != Character.DASH_PUNCTUATION || 
            c != Character.DECIMAL_DIGIT_NUMBER || 
            c != Character.ENCLOSING_MARK || 
            c != Character.END_PUNCTUATION || 
            c != Character.FINAL_QUOTE_PUNCTUATION || 
            c != Character.INITIAL_QUOTE_PUNCTUATION || 
            c != Character.LETTER_NUMBER || 
            c != Character.LOWERCASE_LETTER || 
            c != Character.MATH_SYMBOL || 
            c != Character.MODIFIER_LETTER || 
            c != Character.MODIFIER_SYMBOL || 
            c != Character.OTHER_LETTER || 
            c != Character.OTHER_NUMBER || //remove it if you want to get rid of ½ 
            c != Character.OTHER_PUNCTUATION || 
            c != Character.OTHER_SYMBOL || 
            c != Character.START_PUNCTUATION || 
            c != Character.TITLECASE_LETTER || 
            c != Character.UPPERCASE_LETTER)

使用这些组合来删除不需要的字符。

【讨论】：