网页抓取不同日期的excel文件答案

【问题标题】：Web scrape excel file in different date网页抓取不同日期的excel文件
【发布时间】：2022-01-22 14:15:37
【问题描述】：

我是美汤的新手。谁能建议如何抓取过去 14 天的 excel 文件？我的理解是循环日期并保存文件。谢谢

https://www.hkexnews.hk/reports/sharerepur/sbn.asp

【问题讨论】：

【解决方案1】：

import requests
from bs4 import BeautifulSoup

res=requests.get("https://www.hkexnews.hk/reports/sharerepur/sbn.asp")
soup=BeautifulSoup(res.text,"lxml")

现在我们将使用find 方法在表中查找数据并使用find_all 获取所有td 标签并将数据附加到列表lst。

main_data=soup.find("table").find_all("td")
lst=[]
for data in main_data:
    try:
        url=data.find("a").get('href')[1:]
        main_url="https://www.hkexnews.hk/reports/sharerepur"+url
        lst.append(main_url)
    except AttributeError:
        pass

现在遍历lst 并调用单独的 URL 将数据下载到 excel 文件。

for url in range(len(lst)):
    resp=requests.get(lst[url])
    output = open(f'test_{url}.xls', 'wb')
    output.write(resp.content)
    output.close()
    print(url)

图片：（正在本地创建的文件）

【讨论】：