【发布时间】:2020-07-28 16:06:32
【问题描述】:
我有以下字符串:
str1<-" india hit milestone electricity wind solar"
其中包含的单词数为:
>sapply(strsplit(str1, " "), length)
[1] 7
这不是真的,因为我们在str1 的开头有一个空格。我试图修剪空白,但是:
> stripWhitespace(str1) # by tm package
返回相同的情况:
[1] " india hit milestone electricity wind solar"
为什么?
【问题讨论】:
-
stripWhitespace在哪里定义?我的第一个想法是trimws删除前导(和尾随,如果存在)空格。这将使sapply(strsplit(trimws(str1), " "), length)"6"。 -
stripWhitespace 用于使用 tm 包设置的语料库中的文档,而不是用于字符串。如果您只有一个字符串,请使用上面提到的 trimws。