【发布时间】:2020-04-23 10:48:48
【问题描述】:
我希望对一些我收集并存档在 csv 中的波斯语 Facebook 帖子进行一些简单的数据挖掘(频率、二元组、三元组)。下面是我将与 facebook cmets 的英语 csv 一起使用的脚本,以将所有单个单词取消嵌套到他们自己的列中。
stp_tidy <- stc2 %>%
filter(!str_detect(Message, "^RT")) %>%
mutate(text = str_replace_all(Message, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT","")) %>%
unnest_tokens(word, text, token = "regex", pattern = reg_words) %>%
filter(!word %in% stop_words$word,
str_detect(word, "[a-z]"))
有没有人知道在波斯语(或特定的达里语)脚本中应用 unnest_tokens 的任何方法?
【问题讨论】:
-
我认为使用 quanteda 或 udpipe 进行标记化、POS、Lemmatization 会有更好的结果。但是一个示例文本会很有帮助(和预期的结果)。
-
感谢 phiver。这是我要阅读的 csv 类型的链接:filedropper.com/stptest 我希望看到与政治、年轻人、女性等有关的高频词(达里语)。
-
道歉 - 这个filedropper.com/stptest_3
-
只有前3条记录有数据,只有第2和3条记录有消息,对吗?
-
是的,它只是一个包含超过 5k 个数据点的文件样本。显然可以随意忽略没有消息的记录。
标签: r data-mining text-mining