【发布时间】:2018-02-14 07:51:32
【问题描述】:
我想将 pdf 文件读入管道。但是,除了纯文本或 xml 之外,我还没有找到任何关于文件格式的 apache Beam 示例。
【问题讨论】:
标签: google-cloud-dataflow apache-beam
我想将 pdf 文件读入管道。但是,除了纯文本或 xml 之外,我还没有找到任何关于文件格式的 apache Beam 示例。
【问题讨论】:
标签: google-cloud-dataflow apache-beam
Dataflow 或 Apache Beam 库中没有预先存在的 PDF 阅读器。但是,您可以使用 TensorFlow 记录的此阅读器示例作为模型,使用您选择的 PDF 解析库编写您自己的模型。
【讨论】: