【发布时间】:2021-08-23 18:31:04
【问题描述】:
我目前正在做一个项目,该项目使用 R 来处理一些大型 csv 文件,这些文件保存在与我的 repo 链接的本地目录中。
到目前为止,我成功地创建了 R 项目并将 R 脚本提交并推送到 repo 中,没有任何问题。
但是,脚本从保存在我的本地目录中的 csv 文件中读取数据,因此代码以表格形式出现
df <- read.csv("mylocaldirectorylink")
但是,如果我和我的合作伙伴在同一个项目上工作,每次我们从 repo 中提取它时都必须将该 url 更改为我们自己的本地目录,这将没有帮助。所以我在想也许我们可以将 csv 文件上传到 GitHub Repo 并让 R 脚本直接引用在线的 csv 文件。
所以我的问题是:
- 为什么我不能将 csv 文件上传到 GitHub?他们一直说我的文件太大。
- 如果我可以上传 csv 文件,我如何从这些 csv 文件中读取数据?
【问题讨论】:
-
Github 不是文件共享服务。如果您希望共享数据以进行分析,为什么不使用 Google Drive,它有一个package 方便访问。
-
(a)
df是一个错误的变量名称 (b) 如果您遇到该错误,那么您的 CSV 是 YUGE,您应该考虑使用xz加密迁移到 RDS 文件。这将使您绕过限制。参考 GH URL 获取数据是个坏主意,但如果它被克隆,您可以使用rprojrootpkg 来确保您都使用本地副本。如果你被 CSV 卡住了(呃),请使用 Amazon S3、Google Drive、Dropbox 或其他一些类似的服务(正如 Jake 建议的那样)。