【问题标题】:Nutch skip url containing #Nutch 跳过 url 包含 #
【发布时间】:2015-02-14 21:23:47
【问题描述】:

我正在学习 Nutch。我已经设置了 nutch 并开始抓取网站。但我无法弄清楚的一件事是如何限制包含 # 的 url,因为由于这个 # 会发生多次重复。 我检查了 regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@] 

如果我在概念上将 # 添加到这一行,这应该可以工作,但在添加 # 之后它就不起作用了。是因为 # 用于注释行吗?如果是这样如何解决它。

【问题讨论】:

  • 你试过用反斜杠转义#吗?
  • 我正要这么说。添加了反斜杠和宾果游戏。多么愚蠢。感谢您的答复。 :)
  • 不错的@JayChakra。如果您愿意接受,我已经正式确定了答案。
  • @RobertBain:当然为什么不
  • @RobertBain:nutch 中是否有某种方法可以独特地解析 HTML,例如 solr 的 body 字段中的 body 到 index 、 solr 的 title 字段中的 title 等等。任何潜在客户都受到高度评价

标签: regex nutch


【解决方案1】:

Escape # 使用反斜杠。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-09-07
    • 1970-01-01
    • 2020-04-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多