【问题标题】:Can't load load my dataset to train my model on Google Colab无法加载加载我的数据集以在 Google Colab 上训练我的模型
【发布时间】:2020-05-06 15:56:50
【问题描述】:
我目前面临处理大型数据集的问题,由于google colab提供的空间有限(37 GB),我无法将数据集直接下载到google colab中我做了一些研究,似乎取决于我们分配的 GPU,对于某些人来说,磁盘上的可用空间可能更多。
所以我的问题是,我可以在 Google Cloud 等服务器上下载数据集,然后从服务器上加载它。
数据集大约 20 GB,37 GB 不够的原因是,当你下载一个 zip 文件时,它需要解压缩文件,因此需要额外的 20 GB,但是如果我在服务器上下载并解压缩文件,我只会在 google colab 上使用 20 GB,
欢迎任何其他建议,我的最终目标是找到一个解决方案,让模型在 coco 数据集上进行训练。
【问题讨论】:
标签:
storage
google-colaboratory
【解决方案1】:
另一种方法是仅将 annotations file 上传到 Google Colab。无需下载图像数据集。我们将使用PyCoco API。接下来,在准备图像时,您可以通过 URL 读取图像文件,而不是从 Drive / local 文件夹中访问图像文件!
# The normal method. Read from folder / Drive
I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))
# Instead, use this! Url to load image
I = io.imread(img['coco_url'])
此方法将为您节省大量空间、下载时间和精力。但是,您在训练期间需要有效的 Internet 连接来获取图像(当然您有,因为您使用的是 colab)。
如果你有兴趣更多地探索COCO数据集,可以看看my post on medium。