【发布时间】:2016-03-07 05:11:06
【问题描述】:
我正在尝试解析数据集中的单个字段。我正在尝试过滤掉所有在标题中包含括号“{”的电影的元组。当我运行它时,我收到一个 java 错误,说我下面的不是有效的正则表达式。
raw_actors = LOAD 'hdfs:/user/XXX' USING org.apache.pig.piggybank.storage.CSVExcelStorage('\t') AS (name:chararray,movie_data:chararray,role:chararray);
movie_actors = FILTER raw_actors BY NOT(movie_data MATCHES '.*{.*');
当我在表达式的开头取出 .* 时,它会运行,但没有过滤掉任何内容...关于编写一个不关心给定字符之前或之后的内容的正则表达式有什么建议吗?
【问题讨论】:
标签: java regex hadoop filter apache-pig