【发布时间】:2015-11-30 16:03:12
【问题描述】:
好的,所以我必须完全编辑它。我已经让脚本部分工作,我可以毫无问题地启动它,这是脚本。粘贴链接在这里:http://pastebin.com/SKa5Wh1h 你可以看到我在 cmd 行中得到了什么。我确定正在搜索的关键字在这些链接中,因为我也尝试了其他词,但它没有下载它们。
import scrapy
import requests
from scrapy.http import Request
import scrapy
from FinalSpider.items import Page # Defined in items.py
URL = "http://url.com=%d"
starting_number = 60000
number_of_pages = 100
class FinalSpider(scrapy.Spider):
name = "FinalSpider"
allowed_domains = ['url.com']
start_urls = [URL % starting_number]
def __init__(self):
self.page_number = starting_number
def start_request(self):
# generate page IDs from 1000 down to 501
for i in range (self.page_number, number_of_pages, -1):
yield Request(url = URL % i, callback=self.parse)
def parse(self, response):
for link in response.xpath('//a[text()="Amount"]/@href').extract():
yield Page(url=link)
【问题讨论】:
-
我不清楚您遇到的确切问题。你能提供一些更具体的细节吗?
-
是的。我正在尝试结合我在互联网上找到的一些脚本来执行以下任务。转到网站,找到特定的关键字,例如“100”,然后打印/保存找到它的网址。我试图结合网络上的这些脚本来做到这一点,但我一直失败,因为我不懂这种语言。所以,我在这里发布,看看是否有人可以指导我或知道可以做到这一点的代码。从 4 天前开始,我对此感到很沮丧,而且我只完成了我正在从事的项目的 50%。所以我决定在这里寻求帮助。
-
@user5616520,如果你想习惯在scrapy中从网页中提取数据,请使用scrapy shell,在那里你可以交互地播放选择器和XPaths。我强烈建议您也安装Ipython 以获得更友好的体验。
-
嗨,memoselyk。我将安装 lpython 并对其进行探索,但我不需要提取任何数据本身。我需要的是找到特定的关键字并提取找到它的网址,因为我必须手动检查网址。是的,这是数据提取,但我相信它比提取不同类型的数据要简单得多。但是,到目前为止我不知道如何在我的代码中实现这两个任务..
标签: python xpath web-crawler scrapy