【发布时间】:2020-03-12 11:27:45
【问题描述】:
我有一个大的 .xlsx 文件,其中包含带有表情符号的推文。我正在做一个个人项目,我想从提取的表情符号中制作一个网络图。例如,如果我在其中一列中有这个:
Christian✝️, Husband????, Father????????????????, Former TV ????Meteorologist????, GOP????, LTC ????, Dolfan????, since ‘75, Yanks Fan⚾️ & UCONN Alum???? Go Whalers????!
那么我怎么才能只在输出时得到这个呢?
✝️????????????????????????????????????????⚾️????????
我在 Stack Overflow 和互联网上到处都找遍了,但我什么也没找到。我是 R 的初学者。
编辑
当我正常读取文件时,我得到了 Unicode(UTF-8 格式),但我不知道如何将这些 Unicode 转换为表情符号。网上有字典,但只给我一些表情符号的名字,已经很过时了。
编辑 2
有一个适用于 Linux 的解决方案,但我正在寻找一个解决方案/提示以使其在 Windows 中运行。
【问题讨论】:
-
尝试删除 BMP 中的所有字符,
gsub("[\\x{0000}-\\x{FFFF}]+","",x, perl=TRUE) -
非常感谢您的回复,非常感谢。我在其中一个狭窄的专栏中运行它并正确接收了所有内容。现在唯一的问题是,例如,在控制台中,我会像
"\U0001f4da\U0001f921"一样。 -
....而不是????????
-
感谢@WiktorStribiżew 的帮助,使用它我现在也可以快速解析整个 .xlsx 文件。
标签: r regex twitter unicode emoji