【发布时间】:2013-03-20 14:27:58
【问题描述】:
我正在使用 Searcharoo.NET 抓取具有特定语言的网站“testsite.com/en”。有“testsite.com/fr”、“testsite.com/us”等。稍后我想为每个站点上的页面编制索引,以便可以进行搜索,但我希望将不同的语言分开。
问题在于,当 searcharoo 开始在 testsite.com/en 上爬网时,它还会索引来自其他语言的页面,例如 testsite.com/fr。有没有办法防止这种情况发生?我认为我可以将爬虫限制为仅向前搜索或说在某些页面上停止,但没有从 searcharoo 找到任何关于该主题的文档。
非常感谢,谢谢!
【问题讨论】:
标签: c# .net search search-engine