【发布时间】:2019-06-06 12:36:08
【问题描述】:
我们在 Stormcrawler 1.13 中遇到了一个奇怪的问题。在我们的一些(但不是全部)网站上,我们有一个<meta name="college" content="thiscollege"/> 标签,SC 将indexer.md.mapping 设置为- parse.college=college。对于设置了该元标记的网站,这似乎可以正常工作。
我们遇到的问题是,如果页面 3.html、4.html 和 5.html 的 metatag 设置为 thiscollege1,那么爬虫会命中没有 meta 标签的 page25.html,它似乎重新使用了来自 5.html 的元标记的值 thiscollege1 并将其填充到弹性索引中的 college 字段中。
有没有办法设置它,以便它在每次进入新页面时清零或取消设置该变量,从而不结转该变量?
任何有关如何调整此设置的建议将不胜感激!
追查是个大问题,因为有些记录似乎只是在其中包含随机条目。直到我将这些记录与一些按 NextFetchDate 排序的状态记录进行匹配,我才发现它可能是一个结转变量。我将尝试用几页纸来设置一个特定的测试来专门证明/反驳这个理论,但现在它是唯一符合正在发生的事情的东西。
欢迎任何想法!
【问题讨论】:
标签: elasticsearch stormcrawler