【问题标题】:Restrict Searcharoo to certain pages only将 Searcharoo 仅限于某些页面
【发布时间】:2013-03-20 14:27:58
【问题描述】:

我正在使用 Searcharoo.NET 抓取具有特定语言的网站“testsite.com/en”。有“testsite.com/fr”、“testsite.com/us”等。稍后我想为每个站点上的页面编制索引,以便可以进行搜索,但我希望将不同的语言分开。

问题在于,当 searcharoo 开始在 testsite.com/en 上爬网时,它还会索引来自其他语言的页面,例如 testsite.com/fr。有没有办法防止这种情况发生?我认为我可以将爬虫限制为仅向前搜索或说在某些页面上停止,但没有从 searcharoo 找到任何关于该主题的文档。

非常感谢,谢谢!

【问题讨论】:

    标签: c# .net search search-engine


    【解决方案1】:

    请看下面一个人写的博客:

     http://draganbl.blogspot.com/2011/04/how-do-you-use-searcharoo-library-to.html
    

    您似乎无法随心所欲,但可能会为每种语言设置一个“爬虫/蜘蛛”。我的回答似乎很模糊,但也许它可以给你一个方向。

    【讨论】:

      猜你喜欢
      • 2017-10-09
      • 2014-01-11
      • 2023-03-17
      • 2011-12-02
      • 2021-10-18
      • 1970-01-01
      • 2011-07-04
      • 2017-11-04
      • 1970-01-01
      相关资源
      最近更新 更多