【发布时间】:2017-11-08 01:18:22
【问题描述】:
我正在使用七本哈利波特书籍进行文本挖掘项目。有一个包含书籍文本的 R 包。在这个包中,每本书都是一个向量,每一章都是一个包含在向量中的字符串。
在为我的分析准备字符串时,我不断遇到某种我无法识别的空白,也无法弄清楚如何删除。以下代码说明了这一点:
require(devtools)
devtools::install_github("bradleyboehmke/harrypotter")
require(harrypotter)
temp <- substr(philosophers_stone[1], 0, 31)
temp
temp <- gsub(" ", "", temp)
temp
temp <- gsub("[\t\n\r\v\f]", "", temp)
temp
代码输出如下:
temp <- substr(philosophers_stone[1], 0, 31)
temp
# [1] "THE BOY WHO LIVED Mr. and Mrs."
temp <- gsub(" ", "", temp)
temp
# [1] "THEBOYWHOLIVED Mr.andMrs."
temp <- gsub("[\t\n\r\v\f]", "", temp)
temp
# [1] "THEBOYWHOLIVED Mr.andMrs."
temp <- gsub(" ", "", temp)
temp
# [1] "THEBOYWHOLIVED Mr.andMrs."
谁能帮我弄清楚这是什么东西,以及如何摆脱它?
【问题讨论】:
-
您可以添加您的
sessionInfo()吗?您的错误似乎也存在一些平台依赖性问题。