【问题标题】:how to switch off / on indexing in a web page如何关闭/打开网页中的索引
【发布时间】:2013-05-17 09:55:16
【问题描述】:

我在 Ubuntu Server 12.04 上使用 Nutch 1.6 和 Solr 4.3 我想打开和关闭内容索引。有没有办法在我的 HTML 页面中指定这种行为,以便 Solr 可以做出相应的行为?

例如,在使用 Google Search Appliance 时,我会在页面上我不想编入索引的内容(页眉、页脚、版权字符串等)周围使用“googleon”-“googleoff”标签。

谢谢

【问题讨论】:

    标签: solr nutch apache-tika


    【解决方案1】:

    您需要为 Nutch 创建一个自定义插件才能完成此行为。以下是一些带有示例的相关链接。

    【讨论】:

    • 第二个链接非常清楚需要发生的事情。我有一个类似的实现来针对我们的模板系统注入的自定义标签,所以我想编写一个类似的插件会为你解决问题,Zander。
    • 谢谢佩奇和克劳德。将尝试这种方法。
    【解决方案2】:

    有一个文本文件“robots.txt”向搜索引擎提供有关允许或不允许程序查找内容的 html 页面的信息。在链接FAQ robots.txt: How to stop indexing你会找到所有的信息。

    【讨论】:

    • 该文件控制爬虫在其所在网络文件夹中的活动。相反,我指的是一种在带有标签的页面内控制索引的方法(有关更多详细信息,请在 google 上搜索标签 googleoff / googleon)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-09-06
    • 2019-12-15
    • 2023-03-03
    • 1970-01-01
    相关资源
    最近更新 更多