我应该为我的 Google Cloud VM 选择什么磁盘映像，这样 pandas 才能像在我的 Mac 上一样工作？答案

【问题标题】：What disk image should I choose for my Google Cloud VM so that pandas will work just as it does on my Mac?我应该为我的 Google Cloud VM 选择什么磁盘映像，这样 pandas 才能像在我的 Mac 上一样工作？
【发布时间】：2018-01-15 10:59:47
【问题描述】：

我按照handy tutorial 设置了一个带有数据科学库和 Debian GNU/Linux 9 磁盘映像的 Google Compute Engine VM 实例。我在本地机器上运行了一个数据探索笔记本，发现 pandas.read_csv() 搞砸了我的训练数据的导入。

正确导入，数据集是一列（“文本”）的熊猫数据框。该列中的 3000 个条目中的每一个都是来自生物医学文献语料库的文章。但是，在 VM 上发生的情况是应用了一些长度阈值，并且 pandas 将给定文章的一部分分流到数据帧的新行。它对大多数但不是所有的文章都这样做，并且数据框最终有接近 6000 个条目。更重要的是，尝试训练模型是没有用的。

我使用 Vagrant 克隆了我的本地环境，但似乎很难将我的磁盘映像导入 Google Cloud 并进行优化。所以，如果有人知道更简单的解决方案，我想我会先在这里检查一下，比如选择与 Debian/Linux 不同的机器类型来设置我的 Compute Engine 实例，以便 pandas 功能正常工作。感谢您的意见！

【问题讨论】：

我的猜测是，您的本地环境和虚拟机之间可能有不同的语言环境或不同的 Pandas 版本。你能仔细检查一下 Pandas 包的版本，你能用warn_bad_lines 和quoting 选项play 吗？

标签： pandas machine-learning google-cloud-platform google-compute-engine text-analysis

【解决方案1】：

登录到默认使用 Debian/GNU Linux 的 Google Cloud VM 实例后，您可以使用通常的方式：

sudo apt-get update
sudo apt-get install python-pandas

否则，如果您更喜欢使用 pip 安装程序，那也可以：

sudo apt-get update
sudo apt-get install python-pip

然后可以安装其他 PyPi 库，比如 pandas 为sudo pip install pandas 请记住，如果您想为 Python 3.x 安装库，请在上述 sn-ps 中使用 python3 而不是 python。

【讨论】：

谢谢。如果您阅读我的问题，安装软件包不是问题。它让 pd.read_csv () 正常工作。