【问题标题】:Is it possible to read non-text files into a google dataflow pipeline?是否可以将非文本文件读入谷歌数据流管道?
【发布时间】:2018-02-14 07:51:32
【问题描述】:

我想将 pdf 文件读入管道。但是,除了纯文本或 xml 之外,我还没有找到任何关于文件格式的 apache Beam 示例。

【问题讨论】:

    标签: google-cloud-dataflow apache-beam


    【解决方案1】:

    Dataflow 或 Apache Beam 库中没有预先存在的 PDF 阅读器。但是,您可以使用 TensorFlow 记录的此阅读器示例作为模型,使用您选择的 PDF 解析库编写您自己的模型。

    https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java

    【讨论】:

    • 感谢安德里亚的链接。
    • 你知道Python中有这样一个例子吗?谢谢,埃拉兰
    猜你喜欢
    • 2017-05-23
    • 2022-11-26
    • 1970-01-01
    • 1970-01-01
    • 2016-05-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多