【发布时间】:2018-01-15 10:59:47
【问题描述】:
我按照handy tutorial 设置了一个带有数据科学库和 Debian GNU/Linux 9 磁盘映像的 Google Compute Engine VM 实例。我在本地机器上运行了一个数据探索笔记本,发现 pandas.read_csv() 搞砸了我的训练数据的导入。
正确导入,数据集是一列(“文本”)的熊猫数据框。该列中的 3000 个条目中的每一个都是来自生物医学文献语料库的文章。但是,在 VM 上发生的情况是应用了一些长度阈值,并且 pandas 将给定文章的一部分分流到数据帧的新行。它对大多数但不是所有的文章都这样做,并且数据框最终有接近 6000 个条目。更重要的是,尝试训练模型是没有用的。
我使用 Vagrant 克隆了我的本地环境,但似乎很难将我的磁盘映像导入 Google Cloud 并进行优化。所以,如果有人知道更简单的解决方案,我想我会先在这里检查一下,比如选择与 Debian/Linux 不同的机器类型来设置我的 Compute Engine 实例,以便 pandas 功能正常工作。感谢您的意见!
【问题讨论】:
-
我的猜测是,您的本地环境和虚拟机之间可能有不同的语言环境或不同的 Pandas 版本。你能仔细检查一下 Pandas 包的版本,你能用
warn_bad_lines和quoting选项play 吗?
标签: pandas machine-learning google-cloud-platform google-compute-engine text-analysis