【发布时间】:2013-09-14 06:19:11
【问题描述】:
我一直在尝试使用 nutch 来抓取 twitter 和 linkedin 数据 Nutch-0.9。
- 但是,当我尝试抓取 twitter 时,regex-filter 似乎不起作用,我的 regex-filter 文件有 +^https://([a-z0-9]*.)twitter.com/a 我想做的是只抓取那些遵循上述模式的网址。我最终得到了诸如https://twitter.com/document 之类的网址。
- 关于linkedin部分,每当我尝试抓取它时,它总是显示超时,linkedin上的robots.txt说您需要发送邮件才能将您的抓取工具列入白名单,但他们从不回复。
感谢您的帮助!
【问题讨论】:
标签: linkedin nutch web-crawler