【问题标题】:Using Azure Search for PDFs in Azure Blob Storage在 Azure Blob 存储中使用 Azure 搜索 PDF
【发布时间】:2018-07-06 13:05:43
【问题描述】:

我们正在尝试启用全文搜索。应用程序将 PDF 文件存储在 Azure Blob 存储中,它是 Azure 搜索的数据源。其中大部分工作正常,但索引器无法从几个 PDF 中提取文本。 Azure 搜索索引器是否可以提取任何特定类型的 PDF?如果是,它们是什么?

非常感谢您提供这方面的任何信息、帮助/支持。

【问题讨论】:

    标签: azure-cognitive-search azure-blob-storage


    【解决方案1】:

    Azure 搜索可以从 PDF text elements 中提取所有文本。从嵌入图像(需要 OCR)或表格中提取文本尚未集成到 Azure 搜索中,但已在路线图中。

    如果您的 PDF 包含图像并且您也想从中提取文本,那么您可以尝试按照here 的步骤操作。

    【讨论】:

    • 感谢您抽出宝贵时间回复,我会尝试这种方法并让您知道这是否适合我。
    【解决方案2】:

    Azure 搜索索引器是否可以提取任何特定类型的 PDF?

    根据我的经验,Azure 搜索索引器没有无法提取特定类型的 PDF。根据您的描述,我假设它达到了 Azure 搜索限制。更多详细信息请参考Indexing Documents in Azure Blob Storage with Azure Search

    Azure 搜索会根据定价层限制提取的文本量:免费层32,000 个字符,基本层为 64,000 个字符标准、标准 S2 和标准 S3 层级为 400 万。截断文档的索引器状态响应中包含警告。

    【讨论】:

    • 我在 blob 存储中有 1000 个 pdf,但正在处理其他大约 900 个,我收到不支持文件格式的警告。
    【解决方案3】:

    我最近写了一篇关于我的经验的博客文章。我最终使用了一个在 Azure 中的 Docker 容器中运行的基于 python 的脚本有点复杂,但博客中的布局非常清楚(就 OCR/可搜索性而言,结果非常好)

    http://martyice.github.io/docker-in-azure/

    【讨论】:

    • 感谢您分享您的博文!!
    猜你喜欢
    • 2016-08-14
    • 1970-01-01
    • 2018-04-30
    • 2016-12-02
    • 2022-11-02
    • 1970-01-01
    • 2017-04-18
    • 2015-12-01
    • 1970-01-01
    相关资源
    最近更新 更多