【问题标题】:stormcrawler: indexer.md.mapping - what happens if the metadata tag does not exist?Stormcrawler: indexer.md.mapping - 如果元数据标签不存在会发生什么?
【发布时间】:2019-06-06 12:36:08
【问题描述】:

我们在 Stormcrawler 1.13 中遇到了一个奇怪的问题。在我们的一些(但不是全部)网站上,我们有一个<meta name="college" content="thiscollege"/> 标签,SC 将indexer.md.mapping 设置为- parse.college=college。对于设置了该元标记的网站,这似乎可以正常工作。

我们遇到的问题是,如果页面 3.html、4.html 和 5.html 的 metatag 设置为 thiscollege1,那么爬虫会命中没有 meta 标签的 page25.html,它似乎重新使用了来自 5.html 的元标记的值 thiscollege1 并将其填充到弹性索引中的 college 字段中。

有没有办法设置它,以便它在每次进入新页面时清零或取消设置该变量,从而不结转该变量?

任何有关如何调整此设置的建议将不胜感激!

追查是个大问题,因为有些记录似乎只是在其中包含随机条目。直到我将这些记录与一些按 NextFetchDate 排序的状态记录进行匹配,我才发现它可能是一个结转变量。我将尝试用几页纸来设置一个特定的测试来专门证明/反驳这个理论,但现在它是唯一符合正在发生的事情的东西。

欢迎任何想法!

【问题讨论】:

    标签: elasticsearch stormcrawler


    【解决方案1】:

    只有当您在配置 metadata.transfer 的值中列出 parse.college 时才会发生这种情况。

    【讨论】:

    • 哦 - 是的,我有那套。一切都变得清晰起来。谢谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-06-28
    • 1970-01-01
    • 2011-04-27
    • 1970-01-01
    • 1970-01-01
    • 2011-02-05
    相关资源
    最近更新 更多