【问题标题】:Deploy Python app with textract module to Google Cloud Platform将带有 texttract 模块的 Python 应用程序部署到 Google Cloud Platform
【发布时间】:2019-10-06 05:30:04
【问题描述】:

我想创建一个 Python 脚本来解析 40.000 个 PDF 文件(文本和图像)。因为我看到没有简单的方法来检查页面是否包含图像,所以我认为我应该使用 textract 模块。

理想情况下,我会部署到 Google App Engine。

我的问题是,对于 textract,我还在我的系统中安装了 Python 之外的其他软件包。我可以在 Google Cloud App Engine 上毫无问题地部署脚本(带有适当的 requirements.txt 文件)吗?还是我会用别的东西?

【问题讨论】:

  • Google 应用引擎通常用于处理传入的 REST 请求。你的高级架构是什么?我的直觉是将 40K PDF 加载到 Google Cloud 存储中,然后使用 Compute Engine 托管的应用程序来处理这些文件。通过使用 Compute Engine,您可以完全控制机器的特性(CPU、内存等)。我也很想研究水平扩展......你可以创建一组计算引擎并让它们并行执行。
  • 好的,我就这样处理。非常感谢您的宝贵时间。

标签: python-3.x google-app-engine google-cloud-platform


【解决方案1】:

可以使用 App Engine,但只能使用 Flexible environmentcustom runtime,它允许您添加非 python 依赖项(以及无法通过 pip 安装的 python 依赖项):

自定义运行时允许您定义新的运行时环境, 可能包括其他组件,例如语言解释器或 应用服务器。

另见Building Custom Runtimes

【讨论】:

  • 非常感谢。你会选择什么?
  • 就个人而言,我更喜欢 PaaS 而不是 IaaS(有点反对当前),所以我肯定会首先尝试 GAE。只有当基于该试验的估算成本太高时,我才会考虑 IaaS。
猜你喜欢
  • 2018-08-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-04-24
  • 2016-08-04
相关资源
最近更新 更多