在 Azure Blob 存储中使用 Azure 搜索 PDF答案

【问题标题】：Using Azure Search for PDFs in Azure Blob Storage在 Azure Blob 存储中使用 Azure 搜索 PDF
【发布时间】：2018-07-06 13:05:43
【问题描述】：

我们正在尝试启用全文搜索。应用程序将 PDF 文件存储在 Azure Blob 存储中，它是 Azure 搜索的数据源。其中大部分工作正常，但索引器无法从几个 PDF 中提取文本。 Azure 搜索索引器是否可以提取任何特定类型的 PDF？如果是，它们是什么？

非常感谢您提供这方面的任何信息、帮助/支持。

【问题讨论】：

【解决方案1】：

Azure 搜索可以从 PDF text elements 中提取所有文本。从嵌入图像（需要 OCR）或表格中提取文本尚未集成到 Azure 搜索中，但已在路线图中。

如果您的 PDF 包含图像并且您也想从中提取文本，那么您可以尝试按照here 的步骤操作。

【讨论】：

【解决方案2】：

Azure 搜索索引器是否可以提取任何特定类型的 PDF？

根据我的经验，Azure 搜索索引器没有无法提取特定类型的 PDF。根据您的描述，我假设它达到了 Azure 搜索限制。更多详细信息请参考Indexing Documents in Azure Blob Storage with Azure Search。

Azure 搜索会根据定价层限制提取的文本量：免费层为 32,000 个字符，基本层为 64,000 个字符，标准、标准 S2 和标准 S3 层级为 400 万。截断文档的索引器状态响应中包含警告。

【讨论】：

【解决方案3】：

我最近写了一篇关于我的经验的博客文章。我最终使用了一个在 Azure 中的 Docker 容器中运行的基于 python 的脚本有点复杂，但博客中的布局非常清楚（就 OCR/可搜索性而言，结果非常好）

【讨论】：