【发布时间】:2018-11-16 08:05:43
【问题描述】:
我使用Twint 提取特定搜索结果的推文(这给了我大约 10 万条推文)。 问题是 Twint 输出带有表情符号标题而不是其特定 unicode 的推文内容。这是一个例子:
@LulapeloBrasil presidente minha eterna gratidão a tudo que senhor fez, faz e fará ao nosso povo. Seguiremos lutando pelos nossos ideais! <Emoji: Heavy red heart> <Emoji: Flexed biceps (dark skin tone)> #LulaLivre #EusouLula #LulaValeALuta #OcupaSaoBernardo
这很糟糕,因为我想对推文进行标记以进行进一步分析(例如表情符号的使用),而传统的推文标记器(例如 nltk TweetTokenizer)无法正确标记。
您对如何将这些表情符号标题转换为它们各自的 unicode 有什么建议(我只能使用 re 提取标题)?
我在哪里可以获得emojepedia 使用的数据?或者我在哪里可以下载包含其 unicode 代码和标题的所有 twitter 表情符号列表?
【问题讨论】:
-
你看到了吗:emojipedia.org/twitter
-
是的,但我需要一个可行的完整列表。
-
另一个可能对您有用的链接是这个:unicode.org/emoji/charts/full-emoji-list.html#1f4aa
-
好的,谢谢。从你的链接那里有另一个链接到unicode.org/Public/emoji/11.0/emoji-sequences.txt 我想我可以使用这个
-
有人可以将其发布为答案吗?它有助于 SO 有一个被接受的答案来退出问题。