【发布时间】:2020-01-23 22:11:41
【问题描述】:
我正在测试 Azure 搜索以索引我的网站以进行搜索。
我已经创建了一个索引,我可以从网站页面获取信息并将它们推送到索引中。
我的问题是关于索引 PDF 文件中的内容,包括文本以及使用认知服务从 PDF 文件中的图像中提取文本。
在与索引 PDF 文件相关的教程中,似乎假定 PDF 文件位于可由搜索索引器(如 Azure Blob 存储)访问的位置。因此,我似乎必须获取我网站中已经存在的所有 PDF 文件并将它们存储在 Azure Blob 存储中(以某种方式将其原始 URL 保存在某处),以便我可以索引它们并使用数据源提取内容- 索引器 - 索引。
我正在寻找的功能是您访问我的网站,搜索可能在 PDF 文件文本或图像中的文本,作为搜索结果,您将获得 PDF 文件的原始 URL(不是 Azure存储地址)。
是否可以使用 Azure REST API 直接从我的网站(包括认知服务)索引 PDF 文件的内容?还是我必须先将这些文件放在 Azure Blob 存储中,如果我这样做了,我将如何保留/保存 URL,以便在索引器运行并提取内容时,我可以将原始文件 URL 添加到索引中?
【问题讨论】:
标签: azure-cognitive-search azure-blob-storage azure-cognitive-services