【发布时间】:2019-10-06 05:30:04
【问题描述】:
我想创建一个 Python 脚本来解析 40.000 个 PDF 文件(文本和图像)。因为我看到没有简单的方法来检查页面是否包含图像,所以我认为我应该使用 textract 模块。
理想情况下,我会部署到 Google App Engine。
我的问题是,对于 textract,我还在我的系统中安装了 Python 之外的其他软件包。我可以在 Google Cloud App Engine 上毫无问题地部署脚本(带有适当的 requirements.txt 文件)吗?还是我会用别的东西?
【问题讨论】:
-
Google 应用引擎通常用于处理传入的 REST 请求。你的高级架构是什么?我的直觉是将 40K PDF 加载到 Google Cloud 存储中,然后使用 Compute Engine 托管的应用程序来处理这些文件。通过使用 Compute Engine,您可以完全控制机器的特性(CPU、内存等)。我也很想研究水平扩展......你可以创建一组计算引擎并让它们并行执行。
-
好的,我就这样处理。非常感谢您的宝贵时间。
标签: python-3.x google-app-engine google-cloud-platform