【问题标题】:Run Python Script on AWS and transfer 5GB of files to EC2在 AWS 上运行 Python 脚本并将 5GB 的文件传输到 EC2
【发布时间】:2020-05-26 06:31:51
【问题描述】:

我是 AWS 的绝对初学者:我已经创建了一个密钥和一个实例,我想在 EC2 环境中运行的 python 脚本需要遍历大约 80,000 个文件,将其中的句子标记化,并将这些句子用于一些无监督学习。

这可能是重复的;但我找不到将这些文件复制到 EC2 环境并在 EC2 中运行 python 脚本的方法,我也不太确定如何使用 boto3。我正在使用 Mac 操作系统。我只是在寻找任何方法来加快速度。非常感谢你!我永远感激不尽!!!

【问题讨论】:

标签: python amazon-web-services machine-learning amazon-ec2 boto3


【解决方案1】:

这是我最近尝试过的:

  1. 创建存储桶并保持存储桶可供公众访问。
  2. 创建角色并添加 HTTP 选项。
  3. 上传所有文件并确保这些文件可供公众访问。
  4. 获取 S3 文件的 HTTP 链接。
  5. 通过putty连接实例。
  6. wget 将文件复制到 EC2 实例。

如果您的文件是 zip 格式,一次复制足以将所有文件移动到实例中。

【讨论】:

    【解决方案2】:

    这里有一种可能会有所帮助的方法:

    • 创建一个简单的 IAM 角色,允许 S3 访问保存您文件的存储桶
    • 将该 IAM 角色应用于正在运行的 EC2 实例(或使用 IAM 角色启动一个新实例)
    • 在 EC2 实例上安装 awscli
    • SSH 到实例并使用aws s3 sync 将 S3 文件同步到 EC2 实例
    • 运行您的应用

    我假设您已启动 EC2 并有足够的磁盘空间来保存文件。

    【讨论】:

      猜你喜欢
      • 2013-04-14
      • 2016-10-26
      • 2018-08-30
      • 2020-01-13
      • 1970-01-01
      • 2016-03-11
      • 2019-04-13
      • 2020-09-18
      • 2014-06-27
      相关资源
      最近更新 更多