猪拉丁语 REGEX_EXTRACT：答案

【问题标题】：PIG LATIN REGEX_EXTRACT:猪拉丁语 REGEX_EXTRACT：
【发布时间】：2023-03-18 14:05:01
【问题描述】：

我正在尝试使用 regex_extract 从推文中获取 # 之后的所有内容。我正在使用这段代码，但我什么也没得到，没有错误，只是我应该从推文中获取摘录的空白空间，我做错了什么？

grunt> a = load '/user/manuelrivera11828510/lab/pig/full_text.txt' AS (id:chararray, ts:chararray, location:chararray, lat:float, lon:float, 
tweet:chararray);

grunt> b = foreach a generate id, ts, (lat, lon) as location, REGEX_EXTRACT(tweet, '(.*)#(\\s{8})([:| ])(.*)',2) as hash;

这是我得到的（一个例子）：

(USER_8f811b71,2010-03-06T16:12:59,(40.722733,-73.5367),)

谢谢，

【问题讨论】：

嗨。分隔符是逗号(,)

标签： regex apache-pig extract latin

【解决方案1】：

(?<=\\#).* 应该可以为您提供所需的内容。 ? 前面的所有内容

a = load '/user/manuelrivera11828510/lab/pig/full_text.txt' AS (id:chararray, ts:chararray, location:chararray, lat:float, lon:float, tweet:chararray);
b = foreach a generate id, ts, (lat, lon) as location, REGEX_EXTRACT(tweet, '(?<=\#).*',1) as hash;`

见下文，正则表达式匹配“geteverything in fron of hash”

【讨论】：