【发布时间】:2015-12-22 11:51:21
【问题描述】:
我有一个自定义搜索索引,我想索引 pdf 文件内容。主索引似乎可以很好地索引 pdf 文件,并且 sitecore 的内置搜索功能可以很好地搜索 pdf 文件。我似乎在尝试索引 PDF 字段然后搜索它的内容时遇到问题。
在我的 indexConfiguration 我按名称添加文件
<fieldNames hint="raw:AddFieldByFieldName">
<field fieldName="publication pdf" storageType="YES" indexType="TOKENIZED" vectorType="NO" boost="1f" type="System.String" settingType="Sitecore.ContentSearch.LuceneProvider.LuceneSearchFieldConfiguration, Sitecore.ContentSearch.LuceneProvider" />
...
</fieldNames>
我的结果项包含索引字段定义
[IndexField("publication pdf")]
public virtual string PDF { get; set; }
但是,当我创建搜索上下文并尝试在 PDF 中查找内容时,我得到 0 个结果。
var query = context.GetQueryable<ResultItem>();
query = query.Where(p => p.PDF.Equals(SearchString));
非常感谢任何帮助。
【问题讨论】:
-
我猜您的“Publication PDF”字段是媒体库项目的某种参考字段。 PDF 的内容实际上不是您当前项目的内容。这意味着您需要编写一个自定义计算字段来提取该媒体库项目并抓取其内容。
-
正确。出版物 PDF 是一个文件字段。有关如何抓取 PDF 内容的任何指示?我确定我可以使用计算机字段来查找文件的 ID,不确定是否必须抓取或提取 PDF 的内容。
标签: pdf search indexing sitecore sitecore8