【问题标题】:Dealing with Empty Fields处理空字段
【发布时间】:2020-08-04 00:33:50
【问题描述】:

总的来说,我是 Stormcrawler 和 elasticsearch 的新手。我目前正在使用stormcrawler 2.0 将网站数据(包括PDF 和Word 文档等非HTML 项目)索引到elasticsearch 中。在某些情况下,PDF 或 Word 文档的元数据不包含标题,因此该字段在 elasticsearch 中存储为空白/空。不幸的是,这在我用来显示搜索结果的 webapp (search-ui) 中引起了问题。如果元数据中不存在,是否可以让 Stormcrawler 在标题字段中插入默认值“Untitled”?

我了解 elasticsearch 有一个 null_value 字段参数,但如果我理解正确,该参数不能用于文本字段,只能用于搜索。

谢谢!

【问题讨论】:

标签: elasticsearch web-crawler stormcrawler


【解决方案1】:

一种选择是编写一个自定义 ParseFilter 来为任何缺失的键或具有空值的键提供任意值。 StormCrawler 代码中有很多ParseFilters 的示例,另请参阅the WIKI

同样可以在解析器和索引器之间放置一个自定义 Bolt;获取元数据并根据您的意愿进行标准化。

【讨论】:

  • Julien,感谢您在此问题上的指导以及您在 Stormcrawler 上的所有辛勤工作。您的教程视频帮助很大,我希望以后能看到更多。
  • 不客气,威尔。如果您希望下一个视频特别涵盖任何内容,请与我们联系。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-01-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-03-17
  • 1970-01-01
  • 2019-05-24
相关资源
最近更新 更多