从数据框中提取表情符号答案

【问题标题】：Extracting Emojis from a dataframe从数据框中提取表情符号
【发布时间】：2021-10-01 09:02:04
【问题描述】：

我的研究兴趣是表情符号在文本中对情感分析的影响。我想从我的数据集中提取所有表情符号。到目前为止，我已经完成了以下工作：

 import re 
 from emoji import UNICODE_EMOJI


 emoji_1 = re.compile('[\\u203C-\\u3299\\U0001F000-\\U0001F644]')

 emoji_list= list(filter(emoji_1.match, df['Tweet text']))

 emo_found= ' '.join(emoji for emoji in emoji_list)

  

 def get_emoji_set(text):
     return {letter for letter in text if letter in UNICODE_EMOJI['en'] }

 c = get_emoji_set(emo_found)

  Print(c)

但它并没有提取所有图像。到目前为止，我使用上面的代码只得到了以下表情符号：

{'????', '????', '????', '????', '????', '????', '??? ?', '????'}

但是，这些只是数据集中存在的部分表情符号。我的数据集中还有以下未出现在结果中的表情符号：

????, ???? , ????, ????, ????,????,????,????, ???? + 更多表情符号

为什么我的代码没有从我的数据集中提取所有表情符号，是否还有我在 emoji_1 中定义的表情符号？我应该使用正则表达式编译更多范围吗？

我尝试了以下答案，但它没有返回任何内容。我得到一个空列。

Extract emoji from series of text

【问题讨论】：

标签： python nlp

【解决方案1】：

demoji 库之类的东西可能会有所帮助。

使用 Unicode 联盟的表情符号代码库中的数据准确地从文本块中查找或删除表情符号。

【讨论】：

我正在尝试使用以下代码：df["Emoji list"] = demoji.findall(df['Tweet text'].map(str)) 但收到错误“预期的字符串或字节之类的对象”