【发布时间】:2021-03-05 20:56:09
【问题描述】:
我尝试了 -Nutch crawler: accept only english pages 中建议的解决方案,即将以下属性添加到 nutch-site.xml
<property>
<name>http.accept.language</name>
<value>en-us,en-gb,en</value>
<description>Value of the "Accept-Language" request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.
</description>
</property>
我仍然收到西班牙网址。例如 - www.google.com/es-us/asdfghjk .
任何修复 nutch-site.xml 或 regex-urlfilters.txt 的建议(任何阻止 es-us 的正则表达式建议也非常感谢)。 谢谢
【问题讨论】:
标签: regex web-crawler nutch