【问题标题】:Crawling twitter,linkedin using nutch使用 nutch 抓取 twitter,linkedin
【发布时间】:2013-09-14 06:19:11
【问题描述】:

我一直在尝试使用 nutch 来抓取 twitter 和 linkedin 数据 Nutch-0.9。

  1. 但是,当我尝试抓取 twitter 时,regex-filter 似乎不起作用,我的 regex-filter 文件有 +^https://([a-z0-9]*.)twitter.com/a 我想做的是只抓取那些遵循上述模式的网址。我最终得到了诸如https://twitter.com/document 之类的网址。
  2. 关于linkedin部分,每当我尝试抓取它时,它总是显示超时,linkedin上的robots.txt说您需要发送邮件才能将您的抓取工具列入白名单,但他们从不回复。

感谢您的帮助!

【问题讨论】:

    标签: linkedin nutch web-crawler


    【解决方案1】:

    如果你想抓取这个特定的网址,你也应该包括以下行

    -.*

    此命令将排除所有其他 url! 另外,如果你想抓取twitter或linkedin,你可以使用指定的爬虫,如twit4jlinkedin-j

    【讨论】:

      【解决方案2】:

      据我所知,Nutch 不支持抓取 Twitter 和 Linkedin 数据。要使用 Twitter API 抓取 Titter 数据,请查看http://twitter4j.org/en/。对于爬取链接数据,你可以看看这个https://github.com/pondering/scrapy-linkedin

      希望对你有帮助

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多