【问题标题】:Convert emoji title to unicode将表情符号标题转换为 unicode
【发布时间】:2018-11-16 08:05:43
【问题描述】:

我使用Twint 提取特定搜索结果的推文(这给了我大约 10 万条推文)。 问题是 Twint 输出带有表情符号标题而不是其特定 unicode 的推文内容。这是一个例子:

@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart>  <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo

这很糟糕,因为我想对推文进行标记以进行进一步分析(例如表情符号的使用),而传统的推文标记器(例如 nltk TweetTokenizer)无法正确标记。

您对如何将这些表情符号标题转换为它们各自的 unicode 有什么建议(我只能使用 re 提取标题)?

我在哪里可以获得emojepedia 使用的数据?或者我在哪里可以下载包含其 unicode 代码和标题的所有 twitter 表情符号列表?

【问题讨论】:

标签: python twitter nlp emoji


【解决方案1】:

我找到了这些files(在@Philip Couling 的帮助下)。这是解决问题的开始,尽管需要一些额外的处理。

【讨论】:

    【解决方案2】:

    这里有一个python包也许可以解决你的问题

    emotlib - Python emoji + emoticon Library (<ゝω・)☆ ?‍??‍?

    易于使用,支持 2.7、3.6 并支持 Emoji 11.0。

    但我认为你仍然需要先处理文本。

    【讨论】:

      猜你喜欢
      • 2015-10-18
      • 2015-01-15
      • 1970-01-01
      • 1970-01-01
      • 2016-10-22
      • 1970-01-01
      • 2019-07-11
      • 2012-01-27
      • 2018-07-19
      相关资源
      最近更新 更多