【发布时间】:2015-02-14 21:23:47
【问题描述】:
我正在学习 Nutch。我已经设置了 nutch 并开始抓取网站。但我无法弄清楚的一件事是如何限制包含 # 的 url,因为由于这个 # 会发生多次重复。 我检查了 regex-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[*!@]
如果我在概念上将 # 添加到这一行,这应该可以工作,但在添加 # 之后它就不起作用了。是因为 # 用于注释行吗?如果是这样如何解决它。
【问题讨论】:
-
你试过用反斜杠转义
#吗? -
我正要这么说。添加了反斜杠和宾果游戏。多么愚蠢。感谢您的答复。 :)
-
不错的@JayChakra。如果您愿意接受,我已经正式确定了答案。
-
@RobertBain:当然为什么不
-
@RobertBain:nutch 中是否有某种方法可以独特地解析 HTML,例如 solr 的 body 字段中的 body 到 index 、 solr 的 title 字段中的 title 等等。任何潜在客户都受到高度评价