如何通过在 Google 上搜索来抓取指向特定域的链接？答案

【问题标题】：How to crawl links to a particular domain by searching on Google?如何通过在 Google 上搜索来抓取指向特定域的链接？
【发布时间】：2013-04-26 03:46:38
【问题描述】：

我有一个印度歌曲的歌词语料库，需要用它们的发行年份来标记它们，以便我正在进行一项实验。

有一个网站（lyricsindia.net），里面有一个详尽的数据库，这些歌词历经多年，但遗憾的是在网站上无法搜索到歌词。相反，当我使用部分歌词作为搜索字符串进行谷歌搜索时，歌词印度网站上的歌曲链接始终位于前 10 个结果中。

现在，我想知道是否可以使用像 scrapy 这样的网络爬取框架来使用搜索字符串作为爬取的起点。我遇到的每个 Scrapy 教程都以起始 URL 开头。

【问题讨论】：

【解决方案1】：

您的搜索字符串可能是 Scrapy 网址的一部分。类似 google.com?q=my+string

或者，您可以检索搜索表单，并用您的字符串填充它，例如：

return [FormRequest.from_response(response,
            formdata={'search': 'you\'re search string'},
            callback=self.parse)]

我确信 Scrapy 可能会做你想做的事。

【讨论】：