【问题标题】:Kmeans clustering and Text mining in RR中的Kmeans聚类和文本挖掘
【发布时间】:2017-04-10 14:08:06
【问题描述】:

我有一个包含 twitter 数据的 txt 文件(只有 1 个文件)。我使用 streamR 和 parseTweets 函数将它加载到 R 中。我需要对这些数据进行 Kmeans 聚类。首先,我需要清理和准备数据,但数据是数字、字符的混合体,我不允许这样做:(例如)内容转换为降低。
如何从这些数据中删除所有不需要的字符?我只需要纯文本。没有数字、特殊字符等

*library(streamR)
install.packages("RCurl")
install.packages("bitops")
install.packages("rjson")
library(bitops)
library(RCurl)
library(rjson)
library(NLP)
library(tm)
library(SnowballC)
library(XML)
tweets.df<-parseTweets('tweetsStream.txt', simplify = FALSE);
tweets.df<-tm_map(tweets.df,content_transformer(tolower));
Error in UseMethod("tm_map", x) : 
  no applicable method for 'tm_map' applied to an object of class "data.frame"*

【问题讨论】:

    标签: r k-means text-mining


    【解决方案1】:

    tm_map 函数需要语料库作为输入数据类型。试试这个:

    docs <- Corpus(DirSource(cname))
    docs <- tm_map(docs, tolower)
    

    在此处查找完整示例:https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html

    有关更多详细信息,您可以随时运行

    ??tm_map??tm 可在 R 控制台中访问整个文档。

    问候, 马库斯

    【讨论】:

      猜你喜欢
      • 2014-04-23
      • 2015-07-17
      • 1970-01-01
      • 2018-05-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多