【发布时间】:2016-01-18 09:51:56
【问题描述】:
我正在使用 Nutch 来抓取网页。我在编写正则表达式时遇到问题。
使用以下配置可以正常工作: 种子网址: www.practo.com (以 https:// 开头)
正则表达式-urlfilter.txt: +^https://www.practo.com/
但我只想获取特定页面,例如包含“心脏病专家”信息的页面 示例:我想获取如下页面: www.practo.com/hyderabad/doctor/some-name-cardiologist 即我想获取以某个关键字结尾的页面。
我正在使用以下正则表达式: +^https://www.practo.com(/[a-z0-9]*)*心脏病专家
请帮我写正则表达式。
【问题讨论】: