【发布时间】:2018-06-26 19:36:52
【问题描述】:
我正在尝试从以下网页收集有关运动员的数据:https://www.athletic.net/TrackAndField/Athlete.aspx?AID=7844096#!/L4。我已经能够收集到运动员的姓名,但是使用相同的方法收集他们的学校名称时遇到了困难。我知道学校名称作为文本包含在块内的链接中,但它只返回一个空数组。
这是我的代码:
import scrapy
class AthletesSpider(scrapy.Spider):
name = 'athletes'
allowed_domains = ['athletic.net']
start_urls = ['https://www.athletic.net/TrackAndField/Athlete.aspx?AID=7844096#!/L0']
def parse(self, response):
yield {
'athlete_name' : response.xpath("//h2/text()").extract_first(),
'school_name' : response.xpath("//h1/a/text()").extract_first()
}
我错过了什么吗?
【问题讨论】:
标签: python python-3.x xpath scrapy web-crawler