【问题标题】:How to crawl links to a particular domain by searching on Google?如何通过在 Google 上搜索来抓取指向特定域的链接?
【发布时间】:2013-04-26 03:46:38
【问题描述】:

我有一个印度歌曲的歌词语料库,需要用它们的发行年份来标记它们,以便我正在进行一项实验。

有一个网站(lyricsindia.net),里面有一个详尽的数据库,这些歌词历经多年,但遗憾的是在网站上无法搜索到歌词。相反,当我使用部分歌词作为搜索字符串进行谷歌搜索时,歌词印度网站上的歌曲链接始终位于前 10 个结果中。

现在,我想知道是否可以使用像 scrapy 这样的网络爬取框架来使用搜索字符串作为爬取的起点。我遇到的每个 Scrapy 教程都以起始 URL 开头。

【问题讨论】:

    标签: python web-crawler data-mining scrapy


    【解决方案1】:

    您的搜索字符串可能是 Scrapy 网址的一部分。类似 google.com?q=my+string

    或者,您可以检索搜索表单,并用您的字符串填充它,例如:

    return [FormRequest.from_response(response,
                formdata={'search': 'you\'re search string'},
                callback=self.parse)]
    

    我确信 Scrapy 可能会做你想做的事。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-10-31
      • 1970-01-01
      • 1970-01-01
      • 2021-08-25
      • 1970-01-01
      • 1970-01-01
      • 2016-04-25
      • 1970-01-01
      相关资源
      最近更新 更多