【问题标题】:Are there any opportunities to tokenize hashtags into multi-words tokens?是否有机会将主题标签标记为多字标记?
【发布时间】:2021-12-06 17:25:44
【问题描述】:
我目前正在分析 Instagram 帖子,这些帖子的主题标签通常包含多个单词(例如 #pictureoftheday)。
但是,在 R 包 tidytext 中对它们进行标记只会产生一个标记。相反,我想拥有多个标记,例如“图片”“of”“the”“day”。不幸的是,我还没有找到能够这样做的包。
你知道任何允许这种方法的 R 包吗?
提前致谢!
【问题讨论】:
标签:
r
text
token
mining
posting
【解决方案1】:
据我所知,您无法在不知道它们只是那个单词的情况下拆分连接的单词。如果主题标签被分隔符分割,那将很容易;没有它,它变得非常复杂。您需要一个与语言相关的字典。
您可能必须单独处理数据。创建自己的基于字典的方法通常是一个很好的解决方案,但它非常耗时。
另见:
定量文本分析的最基本形式包括字数统计技术和基于字典的方法。这个tutorial 将涵盖这两个主题,以及情绪分析,这是一种基于字典的文本分析。