【问题标题】:Are there any opportunities to tokenize hashtags into multi-words tokens?是否有机会将主题标签标记为多字标记?
【发布时间】:2021-12-06 17:25:44
【问题描述】:

我目前正在分析 Instagram 帖子,这些帖子的主题标签通常包含多个单词(例如 #pictureoftheday)。

但是,在 R 包 tidytext 中对它们进行标记只会产生一个标记。相反,我想拥有多个标记,例如“图片”“of”“the”“day”。不幸的是,我还没有找到能够这样做的包。 你知道任何允许这种方法的 R 包吗?

提前致谢!

【问题讨论】:

    标签: r text token mining posting


    【解决方案1】:

    据我所知,您无法在不知道它们只是那个单词的情况下拆分连接的单词。如果主题标签被分隔符分割,那将很容易;没有它,它变得非常复杂。您需要一个与语言相关的字典。

    您可能必须单独处理数据。创建自己的基于字典的方法通常是一个很好的解决方案,但它非常耗时。

    另见:

    定量文本分析的最基本形式包括字数统计技术和基于字典的方法。这个tutorial 将涵盖这两个主题,以及情绪分析,这是一种基于字典的文本分析。

    【讨论】:

      猜你喜欢
      • 2021-06-18
      • 2011-08-05
      • 1970-01-01
      • 1970-01-01
      • 2017-09-09
      • 1970-01-01
      • 2013-05-07
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多