【发布时间】:2017-01-14 03:48:02
【问题描述】:
我正在尝试编写一些代码来下载位于http://www.eirgridgroup.com/customer-and-industry/general-customer-information/outage-information/底部的两个最新出版物的停电周
这是 xlsx 文件,之后我将加载到 Excel 中。 代码是用哪种编程语言编写的并不重要。
我的第一个想法是使用直接网址,例如http://www.eirgridgroup.com/site-files/library/EirGrid/Outage-Weeks_36(2016)-51(2016)_31%20August.xlsx ,然后编写一些代码来猜测两个最新出版物的 url。 但是我注意到 url 名称中有一些不一致的地方,因此该解决方案不起作用。
相反,它可能是抓取网站并使用 XPath 下载文件的解决方案。我发现这两个最新的出版物总是有以下 XPath:
/html/body/div[3]/div[3]/div/div/p[5]/a
/html/body/div[3]/div[3]/div/div/p[6]/a
这是我需要帮助的地方。我是 XPath 和 Web Scraping 的新手。我在 Python 中尝试过类似的东西
from lxml import html
import requests
page = requests.get('http://www.eirgridgroup.com/customer-and-industry/general-customer-information/outage-information/')
tree = html.fromstring(page.content)
v = tree.xpath('/html/body/div[3]/div[3]/div/div/p[5]/a')
但是 v 似乎是空的。
任何想法将不胜感激!
【问题讨论】:
标签: python vba xpath import web-scraping