【发布时间】:2017-03-06 17:23:09
【问题描述】:
#----\
#-----*-----\
#----/ \
\
#----\ \
#-----*-------- * <-- START
#----/ /
/
#----\ /
#-----*-----/
#----/
这是我想用 scrapy 报废的网站结构,其中 * 是页面,--- 表示链接。我想抓取 # 页的数据。 我已经做了一个刮板,它可以从单个 # 页面刮取数据。
import scrapy
class MyItem(scrapy.Item):
topic = scrapy.Field()
symptoms = scrapy.Field()
class QuotesSpider(scrapy.Spider):
name = "medical"
allowed_domains = ['medlineplus.gov']
start_urls = ['https://medlineplus.gov/ency/article/000178.htm']
def parse(self, response):
item = MyItem()
item["topic"] = response.css('h1.with-also::text').extract_first()
item["symptoms"] = response.css("article div#section-2 li::text").extract()
yield item
起始网页是https://medlineplus.gov/encyclopedia.html
我想在百科全书上抓取所有疾病的信息。
【问题讨论】:
标签: python python-2.7 web-scraping scrapy