【问题标题】:Do I have to store PDF files in Azure Blob Storage to OCR and index them?我是否必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?
【发布时间】:2020-01-23 22:11:41
【问题描述】:

我正在测试 Azure 搜索以索引我的网站以进行搜索。

我已经创建了一个索引,我可以从网站页面获取信息并将它们推送到索引中。

我的问题是关于索引 PDF 文件中的内容,包括文本以及使用认知服务从 PDF 文件中的图像中提取文本。

在与索引 PDF 文件相关的教程中,似乎假定 PDF 文件位于可由搜索索引器(如 Azure Blob 存储)访问的位置。因此,我似乎必须获取我网站中已经存在的所有 PDF 文件并将它们存储在 Azure Blob 存储中(以某种方式将其原始 URL 保存在某处),以便我可以索引它们并使用数据源提取内容- 索引器 - 索引。

我正在寻找的功能是您访问我的网站,搜索可能在 PDF 文件文本或图像中的文本,作为搜索结果,您将获得 PDF 文件的原始 URL(不是 Azure存储地址)。

是否可以使用 Azure REST API 直接从我的网站(包括认知服务)索引 PDF 文件的内容?还是我必须先将这些文件放在 Azure Blob 存储中,如果我这样做了,我将如何保留/保存 URL,以便在索引器运行并提取内容时,我可以将原始文件 URL 添加到索引中?

【问题讨论】:

    标签: azure-cognitive-search azure-blob-storage azure-cognitive-services


    【解决方案1】:

    目前,Azure 搜索支持以下平台作为数据源:

    • Blob 存储
    • 表存储
    • Azure Cosmos DB
    • Azure SQL 数据库和 Azure VM 上的 SQL Server

    所以如果你想为你的 pdf 建立索引,你应该将它们存储在 Azure 存储中,以便 Azure 搜索可以准确地搜索内容并为它们建立索引。

    如果您想将原始文件 URL 包含到您的索引中,您可以为您的 pdf blob 添加一个user-defined metadata,即“originalUrl”:

    这样它就会被 Azure 搜索索引:

    希望对您有所帮助。

    【讨论】:

    • 谢谢,我试试
    • 欢迎@favosys,如果我的建议有帮助请标记我的答案,谢谢!
    • 我能够以编程方式上传文件并将用户定义的元数据添加到每个文件!再次感谢。
    • 欢迎您,祝您有美好的一天!
    猜你喜欢
    • 2017-04-18
    • 2019-12-26
    • 2017-08-18
    • 2020-08-25
    • 1970-01-01
    • 2013-02-06
    • 2020-08-18
    • 2020-11-09
    • 2021-07-29
    相关资源
    最近更新 更多