【发布时间】:2021-08-02 04:04:05
【问题描述】:
我有一个网站文章的大数据框,它是通过自动刮刀收集的,其中包含“文本”和“网站”两列。问题是我在我收集的一个网站的所有文章中发现了大量无用的文本。
文本始终相同,并通过这些行说明“点击此处,您接受使用 cookie //rn 如果您想订阅,请点击下面的链接。//rn。订阅即表示您接受我们的隐私政策 //rn 了解更多信息,请点击此链接"
我想找到一种方法来清除此消息中的所有文本字段,但到目前为止我无法做到。
这是我的数据框示例
df
文字
这是文本 1。点击此处即表示您接受使用 cookie //rn 如果您想订阅,请点击下面的链接。 //rn。订阅即表示您接受我们的隐私政策 //rn 了解更多信息,请单击此链接
这是文本 2
这是文本 3
这是文字 4
期望的结果:
df
文本 这是文本 1
这是文本 2
这是文本 3
这是文字 4
这是我尝试过的:
to_remove<-"By clicking here you accept the use of cookies //rn If you would like to subscribe please click on the link below. //rn. By subscribing you accept our privacy policy //rn for more information click on this link"
df<-gsub(to_remove, "", df$text)
唉,我收到以下错误消息:
error in (gsub(to_remove, "", df$text)): invalid regular expression
我也尝试写下没有斜线和其他符号的文本,但我得到了相同的错误消息
有人知道有什么函数可以用来从这么大的文本中清除我的数据集吗?
【问题讨论】:
-
此文本
to_remove是否始终位于实际文本的末尾?此外,您应该将gsub的输出分配给df的一列,即df$text,而不是整个df。
标签: r text data-cleaning gsub