【发布时间】:2017-01-24 23:19:57
【问题描述】:
我需要提取文本中数字和表情符号之间的文本
示例文本:
blah xzuyguhbc ibcbb bqw 2 extract1 ☺️ jbjhcb 6 extract2 ???? bjvcvvv
输出:
extract1
extract2
我编写的正则表达式代码提取了 2 个数字之间的文本,我需要更改它识别 unicode 表情符号字符的部分并提取它们之间的文本。
(?<=[\s][\d])(.*?)(?=[\d])
请建议一种对 python 友好的方法,我需要它来处理所有表情符号,而不仅仅是示例中给出的那个
【问题讨论】:
-
您应该查看此堆栈以获取表情符号的正则表达式stackoverflow.com/q/28077049/4639336
-
@reticentroot 我认为它不适用于像“????”这样的 utf8 表情符号。
-
@reticentroot 我需要它来处理 unicode 表情符号。
-
在匹配表情符号之前,您可以先将Unicode表情符号转换为文本吗?这个帖子stackoverflow.com/questions/25707222/… 就是这样做的。
标签: python regex unicode emoji