【发布时间】:2021-10-01 09:02:04
【问题描述】:
我的研究兴趣是表情符号在文本中对情感分析的影响。我想从我的数据集中提取所有表情符号。到目前为止,我已经完成了以下工作:
import re
from emoji import UNICODE_EMOJI
emoji_1 = re.compile('[\\u203C-\\u3299\\U0001F000-\\U0001F644]')
emoji_list= list(filter(emoji_1.match, df['Tweet text']))
emo_found= ' '.join(emoji for emoji in emoji_list)
def get_emoji_set(text):
return {letter for letter in text if letter in UNICODE_EMOJI['en'] }
c = get_emoji_set(emo_found)
Print(c)
但它并没有提取所有图像。到目前为止,我使用上面的代码只得到了以下表情符号:
{'????', '????', '????', '????', '????', '????', '??? ?', '????'}
但是,这些只是数据集中存在的部分表情符号。我的数据集中还有以下未出现在结果中的表情符号:
????, ???? , ????, ????, ????,????,????,????, ???? + 更多表情符号
为什么我的代码没有从我的数据集中提取所有表情符号,是否还有我在 emoji_1 中定义的表情符号?我应该使用正则表达式编译更多范围吗?
我尝试了以下答案,但它没有返回任何内容。我得到一个空列。
【问题讨论】: