【发布时间】:2019-05-29 20:48:09
【问题描述】:
这是我的解析方法,它为我提供了 URL 列表,但在解析函数中,我想从另一个我生成的名为 parse_url 的 url 中提取数据? 怎么做...? 我对scrapy很陌生...请帮助我
def parse(self, response):
base_url = "https://indiankanoon.org/"
urlList=response.xpath('//div[@class="result_title"]/a/@href').extract()
print("*********************Inside parse********************")
time.sleep(5)
for url in urlList:
sepList = url.split('/')
parse_url =base_url + 'doc' + '/' + sepList[2] + '/'
fname=sepList[2]
print('New Urls : {}\n The saved file name : {}.json'.format(parse_url, fname))
for quote in response.css('div.judgments'):
with open('datafile.json','w') as jfile:
jfile.write(json.dumps({
'Court': quote.css('div.docsource_main::text').extract(),
'title': 'quote.xpath("//div[@class='judgments']/div[@class='doc_title']/text()").extract_first(),
'subTitle': quote.css("div.judgments::text").extract_first(),
'P_tags': quote.xpath("//div[@class='judgments']/p/text()").extract(),
'Pre_tags': quote.xpath("//div[@class='judgments']/pre/text()").extract(),
'blocked_quote': quote.xpath("//div[@class='judgments']/blockquote").extract()
}))
enter code here
【问题讨论】:
-
您能否更清楚地说明您要实现的目标以及代码中其他重要的部分。例如,您谈论您还需要帮助的
parse_url方法。把它也包括在内会很有用。 -
def get_urls(): URLS = [] # URL = "indiankanoon.org/search/…{start_date}%20todate%3A%20{end_date}&pagenum={num}" URL = "indiankanoon.org/search/…{start_date }%20todate%3A%20{end_date}&pagenum={num}" for i in range(0, 2): for d in fetch_all(): URLS.append(URL.format(start_date=get_first_day(d).strftime( '%d-%m-%Y'), end_date=get_last_day(d).strftime('%d-%m-%Y'), num=i)) 返回网址我正在获取网址列表
-
请编辑您的原始帖子,而不是在 cmets 中提供有关您问题的额外详细信息。
-
但是使用解析函数我正在创建名为 parse_url 的新 url,我想从该新 url 中删除数据,但我无法获取它。
-
感谢您的建议
标签: python-2.7 scrapy scrapy-spider