【发布时间】:2017-02-28 00:28:22
【问题描述】:
我有一个 Azure 存储容器,其中包含存储为 blob 的混合文件(pdf、doc、docx、jpg、png、...)。
我正在尝试使用 Azure 搜索 blob 索引器来索引所有文件(包括图像)的元数据,并在可能的情况下提取内容以进行全文搜索(显然图像没有任何可提取的文本内容) .想要提取图像元数据背后的想法是,我想要在图像的搜索索引中输入一个条目,因为我在 DocumentDB 中有其他数据,我想使用 WebJob 手动合并到搜索索引中。
使用 Azure 门户,我添加了数据源、索引和索引器,但是,当索引器运行时,它失败并出现以下错误:
Document 'https://xxx.blob.core.windows.net/xxx/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx-v1' has unsupported content type 'image/jpeg'
阅读https://azure.microsoft.com/en-us/documentation/articles/search-howto-indexing-azure-blob-storage/#using-custom-metadata-to-control-document-extraction 上的文档时提到,如果我使用“AzureSearch_SkipContent”键和“true”值将元数据添加到 blob,那么它不应该尝试提取内容。
将“AzureSearch_SkipContent”元数据添加到https://azure.microsoft.com/en-us/documentation/articles/search-howto-indexing-azure-blob-storage/#content-type-specific-metadata-properties 上的表中未列出的所有内容类型后,索引器仍然失败并出现上述错误。
如果我将“AzureSearch_Skip”元数据设置为“true”,那么索引器会跳过图像 blob,但是我的索引中没有任何内容 - 这不是我想要的。
这是我尝试实现的步骤的示例:
- 将灭火器的图像(例如)保存到 blob 存储中
- 同时我在 DocumentDB 中存储了一些关于灭火器的额外信息
- 我希望 Blob 索引器找到新图像并向新 Blob 的搜索索引添加一行,而不尝试提取任何文本内容
- 自定义 WebJob 将使用相关 DocumentDB 文档中的信息更新搜索索引中的新行
那么,是否可以将“AzureSearch_SkipContent”添加到图像 blob 并在搜索索引中显示一些内容?还是我唯一的解决方案是完全“AzureSearch_Skip”,然后手动在搜索索引中添加一些内容?
【问题讨论】:
标签: image azure search azure-blob-storage azure-cognitive-search