【问题标题】:What disk image should I choose for my Google Cloud VM so that pandas will work just as it does on my Mac?我应该为我的 Google Cloud VM 选择什么磁盘映像,这样 pandas 才能像在我的 Mac 上一样工作?
【发布时间】:2018-01-15 10:59:47
【问题描述】:

我按照handy tutorial 设置了一个带有数据科学库和 Debian GNU/Linux 9 磁盘映像的 Google Compute Engine VM 实例。我在本地机器上运行了一个数据探索笔记本,发现 pandas.read_csv() 搞砸了我的训练数据的导入。

正确导入,数据集是一列(“文本”)的熊猫数据框。该列中的 3000 个条目中的每一个都是来自生物医学文献语料库的文章。但是,在 VM 上发生的情况是应用了一些长度阈值,并且 pandas 将给定文章的一部分分流到数据帧的新行。它对大多数但不是所有的文章都这样做,并且数据框最终有接近 6000 个条目。更重要的是,尝试训练模型是没有用的。

我使用 Vagrant 克隆了我的本地环境,但似乎很难将我的磁盘映像导入 Google Cloud 并进行优化。所以,如果有人知道更简单的解决方案,我想我会先在这里检查一下,比如选择与 Debian/Linux 不同的机器类型来设置我的 Compute Engine 实例,以便 pandas 功能正常工作。感谢您的意见!

【问题讨论】:

  • 我的猜测是,您的本地环境和虚拟机之间可能有不同的语言环境或不同的 Pandas 版本。你能仔细检查一下 Pandas 包的版本,你能用warn_bad_linesquoting 选项play 吗?

标签: pandas machine-learning google-cloud-platform google-compute-engine text-analysis


【解决方案1】:

登录到默认使用 Debian/GNU Linux 的 Google Cloud VM 实例后,您可以使用通常的方式:

sudo apt-get update
sudo apt-get install python-pandas

否则,如果您更喜欢使用 pip 安装程序,那也可以:

sudo apt-get update
sudo apt-get install python-pip

然后可以安装其他 PyPi 库,比如 pandas 为sudo pip install pandas 请记住,如果您想为 Python 3.x 安装库,请在上述 sn-ps 中使用 python3 而不是 python

【讨论】:

  • 谢谢。如果您阅读我的问题,安装软件包不是问题。它让 pd.read_csv () 正常工作。
猜你喜欢
  • 2015-09-23
  • 1970-01-01
  • 2015-11-12
  • 1970-01-01
  • 1970-01-01
  • 2019-09-30
  • 1970-01-01
  • 2018-11-29
  • 1970-01-01
相关资源
最近更新 更多