【发布时间】:2018-04-04 17:11:40
【问题描述】:
我正在处理文本分析。我需要数句子。我的代码是:
library(dplyr)
library(tidytext)
txt <- readLines("consolidado.txt",encoding="UTF-8")
txt = iconv(txt, to="ASCII//TRANSLIT")
text_df <- data_frame(line = 1:392, text = txt)
palabras1 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 1)
palabras2 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 2)
palabras3 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 3)
palabras4 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 4)
palabras5 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 5)
palabras6 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 6)
palabras7 <- text_df %>% unnest_tokens(bigram, text, token = "ngrams", n = 7)
首先我将 txt 转换为数据框,然后使用 tidytext。这项工作很好,但问题是停用词。我想删除数据框中的停止词,但我不知道如何。我试图将其转换为语料库,但这种方式不起作用,因为虽然它后来消除了停用词,但它无法计算句子。
有什么方法可以删除数据框中的停用词???
谢谢
【问题讨论】:
-
用
stop_words做一个anti_join
标签: r dataframe corpus stop-words