【发布时间】:2019-01-19 19:01:04
【问题描述】:
我对 R 比较陌生(在法学院,所以这对我来说都是全新的),所以如果措辞不当,我深表歉意。 我有一系列大约 1500 个文档,我将它们导入 R 以便稍后进行分类和分析。我需要做的第一件事是排除所有用法语编写的文档,这些文档在 title/doc.info 中标有“FR”。我很好奇在导入文件之前我可以使用什么样的代码来排除它,以便在分析任何内容之前拥有一个干净的数据集(因为它显然会使情绪分析等过程变得一团糟)。 感谢您提供任何帮助(即使该帮助正在解释如何更好地谈论编码)。 亲切的问候!
编辑 1 我正在使用的代码是 readtext(folder),您可以在下面看到: 文件夹
submissions_text<-submissions$text
submission_number<- numeric()
submission_person<- factor()
submission_code<- factor()
submission_language<-factor()
submission_location<-factor()
for (submission_name in submissions$doc_id) {
submission_name<-gsub(".txt","",submission_name)
number<-as.numeric(strsplit(submission_name, "_|-")[[1]][1])
submission_number<-c(submission_number,number)
person<-strsplit(submission_name, "_")[[1]][2]
submission_person<-c(submission_person, person)
code<-strsplit(submission_name, "_")[[1]][3]
submission_code<-c(submission_code, code)
lang<-strsplit(submission_name, "_")[[1]][4]
submission_language<-c(submission_language, lang)
location<-strsplit(submission_name, "_")[[1]][5]
submission_location<-c(submission_location, location)
}
submissions<-cbind(submissions,submission_number)
submissions<-cbind(submissions,submission_person)
submissions<-cbind(submissions,submission_code)
submissions<-cbind(submissions,submission_language)
submissions<-cbind(submissions,submission_location)
submissions<-submissions[order(submissions$submission_number, decreasing = FALSE),]
这只是我的代码的组织方面。我希望在此之前排除所有法国数据(但如果之后出现,我也会对此感到非常满意)。
【问题讨论】:
-
这是一个非常宽泛的问题 - 可能过于宽泛,无法在这里轻松回答。您是否尝试过编写任何代码,例如仅导入所有文档? SO 不是代码编写服务,因此最好展示一些尝试(即使您对此没有信心),然后人们可以为您指出更好的方向。
-
当然。我可以向你展示我目前拥有的东西。文件夹% select(order, doc_id:text) #这将是对于第一个数字,排序 submit_number
-
您可以将其作为对您问题的编辑,以便其他人可以尝试您的代码(尽管看起来您已经有了一个很好的答案!)。请记住,如果您包含 minimal example,您将获得更好的帮助。
-
我的错。再一次,对我来说都是新的。感谢您的耐心等待!
标签: r