【问题标题】:nutch crawler relative urls problemnutch 爬虫相对 urls 问题
【发布时间】:2010-09-29 10:20:49
【问题描述】:

有没有人遇到过标准 html 解析器插件处理相对 url 的方式的问题?有一个网站-http://xxxx/asp/list_books.asp?id_f=11327 并且在浏览其 href 设置为的链接时 '?id_r=442&id=41&order=' 浏览器自然会带你到 http://xxxx/asp/list_books.asp?id_r=442&id=41&order=

但是,当从页面中解析出链接时,链接最终会变成 http://xxxx/asp/?id_r=442&id=41&order=

当然是坏了。那么为什么 list_books.asp 不见了呢?

【问题讨论】:

标签: java lucene solr nutch


【解决方案1】:

已经为此记录了bug。看看吧。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 2018-06-07
  • 1970-01-01
  • 2011-05-15
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多