【问题标题】:How To Read DataSet with R [duplicate]如何使用 R 读取数据集 [重复]
【发布时间】:2019-09-09 12:01:11
【问题描述】:

我有 3 个 CSV 文件。 train.csv - 训练集,test.csv - 测试集和 sampleSubmission.csv - 正确格式的样本提交文件。我是 R 的新手。我不知道如何阅读 R。 这是数据集的驱动链接

https://drive.google.com/open?id=1YPw-MPlW7g2y19GT1ITy_fHbjrKBNc-M

【问题讨论】:

  • 您好,刚才这个问题有点太笼统了。您能否尝试将其分解为更小的问题(即如何读取数据、如何为建模准备数据、如何使用决策树、如何输出结果)并展示您的尝试。 r tag info 提供了许多有助于您入门的介绍。
  • 好的,谢谢,我会分成几部分
  • 好的,但请查看介绍文档,即来自 r 标记链接 ^^ R Data Import/Export 详细说明如何在电子表格中读取数据。
  • 你可以使用 df
  • 您现在好像在问一个不同的问题。您可以发布另一个关于使用训练和测试数据的问题,但请先研究其他可能有帮助的 SO 帖子,并确保您的问题是 reproducible

标签: r


【解决方案1】:

关于您的 cmets,我认为您必须使用额外文件将决策树的结果放在那里。下面给出一个简短的注释方式。

dTest  <- read.csv("test.csv")  #Read in the datasets
dTrain  <- read.csv("train.csv")
dSub  <- read.csv("sub.csv")

dTrain$y <- as.logical(dTrain$y) #Change type of y to logical

library(rpart)
dtree <- rpart(y ~ . - id, data=dTrain) #Make decission tree

all(dSub$id == dTest$id) #Test of order of dSub$id is equal to dTest$id
#[1] TRUE

dSub$y  <- predict(dtree, newdata=dTest) #make prediction
head(dSub)
#     id          y
#1 38062 0.05454481
#2 40079 0.05454481
#3 39238 0.21288164
#4 36069 0.05454481
#5 40531 0.05454481
#6 38164 0.21288164

【讨论】:

    猜你喜欢
    • 2011-04-27
    • 2013-08-02
    • 2016-04-01
    • 1970-01-01
    • 2020-05-30
    • 1970-01-01
    • 2014-03-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多