【发布时间】:2023-03-18 14:05:01
【问题描述】:
我正在尝试使用 regex_extract 从推文中获取 # 之后的所有内容。我正在使用这段代码,但我什么也没得到,没有错误,只是我应该从推文中获取摘录的空白空间,我做错了什么?
grunt> a = load '/user/manuelrivera11828510/lab/pig/full_text.txt' AS (id:chararray, ts:chararray, location:chararray, lat:float, lon:float,
tweet:chararray);
grunt> b = foreach a generate id, ts, (lat, lon) as location, REGEX_EXTRACT(tweet, '(.*)#(\\s{8})([:| ])(.*)',2) as hash;
这是我得到的(一个例子):
(USER_8f811b71,2010-03-06T16:12:59,(40.722733,-73.5367),)
谢谢,
【问题讨论】:
-
嗨。分隔符是逗号(,)
标签: regex apache-pig extract latin