【发布时间】:2018-07-06 13:05:43
【问题描述】:
我们正在尝试启用全文搜索。应用程序将 PDF 文件存储在 Azure Blob 存储中,它是 Azure 搜索的数据源。其中大部分工作正常,但索引器无法从几个 PDF 中提取文本。 Azure 搜索索引器是否可以提取任何特定类型的 PDF?如果是,它们是什么?
非常感谢您提供这方面的任何信息、帮助/支持。
【问题讨论】:
标签: azure-cognitive-search azure-blob-storage
我们正在尝试启用全文搜索。应用程序将 PDF 文件存储在 Azure Blob 存储中,它是 Azure 搜索的数据源。其中大部分工作正常,但索引器无法从几个 PDF 中提取文本。 Azure 搜索索引器是否可以提取任何特定类型的 PDF?如果是,它们是什么?
非常感谢您提供这方面的任何信息、帮助/支持。
【问题讨论】:
标签: azure-cognitive-search azure-blob-storage
Azure 搜索可以从 PDF text elements 中提取所有文本。从嵌入图像(需要 OCR)或表格中提取文本尚未集成到 Azure 搜索中,但已在路线图中。
如果您的 PDF 包含图像并且您也想从中提取文本,那么您可以尝试按照here 的步骤操作。
【讨论】:
Azure 搜索索引器是否可以提取任何特定类型的 PDF?
根据我的经验,Azure 搜索索引器没有无法提取特定类型的 PDF。根据您的描述,我假设它达到了 Azure 搜索限制。更多详细信息请参考Indexing Documents in Azure Blob Storage with Azure Search。
Azure 搜索会根据定价层限制提取的文本量:免费层为 32,000 个字符,基本层为 64,000 个字符,标准、标准 S2 和标准 S3 层级为 400 万。截断文档的索引器状态响应中包含警告。
【讨论】:
我最近写了一篇关于我的经验的博客文章。我最终使用了一个在 Azure 中的 Docker 容器中运行的基于 python 的脚本有点复杂,但博客中的布局非常清楚(就 OCR/可搜索性而言,结果非常好)
【讨论】: