【发布时间】:2020-08-04 00:33:50
【问题描述】:
总的来说,我是 Stormcrawler 和 elasticsearch 的新手。我目前正在使用stormcrawler 2.0 将网站数据(包括PDF 和Word 文档等非HTML 项目)索引到elasticsearch 中。在某些情况下,PDF 或 Word 文档的元数据不包含标题,因此该字段在 elasticsearch 中存储为空白/空。不幸的是,这在我用来显示搜索结果的 webapp (search-ui) 中引起了问题。如果元数据中不存在,是否可以让 Stormcrawler 在标题字段中插入默认值“Untitled”?
我了解 elasticsearch 有一个 null_value 字段参数,但如果我理解正确,该参数不能用于文本字段,只能用于搜索。
谢谢!
【问题讨论】:
-
很确定
null_value可用于文本字段。根据最新文档,null_value的唯一限制是它必须与字段的数据类型相同。 elastic.co/guide/en/elasticsearch/reference/current/…
标签: elasticsearch web-crawler stormcrawler