Nutch 跳过 url 包含 #答案

【问题标题】：Nutch skip url containing #Nutch 跳过 url 包含 #
【发布时间】：2015-02-14 21:23:47
【问题描述】：

我正在学习 Nutch。我已经设置了 nutch 并开始抓取网站。但我无法弄清楚的一件事是如何限制包含 # 的 url，因为由于这个 # 会发生多次重复。我检查了 regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

如果我在概念上将 # 添加到这一行，这应该可以工作，但在添加 # 之后它就不起作用了。是因为 # 用于注释行吗？如果是这样如何解决它。

【问题讨论】：

你试过用反斜杠转义#吗？
我正要这么说。添加了反斜杠和宾果游戏。多么愚蠢。感谢您的答复。 :)
不错的@JayChakra。如果您愿意接受，我已经正式确定了答案。
@RobertBain：当然为什么不
@RobertBain：nutch 中是否有某种方法可以独特地解析 HTML，例如 solr 的 body 字段中的 body 到 index 、 solr 的 title 字段中的 title 等等。任何潜在客户都受到高度评价

标签： regex nutch

【解决方案1】：

Escape # 使用反斜杠。

【讨论】：