【问题标题】:Web scrape excel file in different date网页抓取不同日期的excel文件
【发布时间】:2022-01-22 14:15:37
【问题描述】:

我是美汤的新手。谁能建议如何抓取过去 14 天的 excel 文件?我的理解是循环日期并保存文件。谢谢

https://www.hkexnews.hk/reports/sharerepur/sbn.asp

【问题讨论】:

    标签: web-scraping beautifulsoup request


    【解决方案1】:
    import requests
    from bs4 import BeautifulSoup
    
    res=requests.get("https://www.hkexnews.hk/reports/sharerepur/sbn.asp")
    soup=BeautifulSoup(res.text,"lxml")
    

    现在我们将使用find 方法在表中查找数据并使用find_all 获取所有td 标签并将数据附加到列表lst

    main_data=soup.find("table").find_all("td")
    lst=[]
    for data in main_data:
        try:
            url=data.find("a").get('href')[1:]
            main_url="https://www.hkexnews.hk/reports/sharerepur"+url
            lst.append(main_url)
        except AttributeError:
            pass
    

    现在遍历lst 并调用单独的 URL 将数据下载到 excel 文件。

    for url in range(len(lst)):
        resp=requests.get(lst[url])
        output = open(f'test_{url}.xls', 'wb')
        output.write(resp.content)
        output.close()
        print(url)
    

    图片:(正在本地创建的文件)

    【讨论】:

      猜你喜欢
      • 2017-12-06
      • 1970-01-01
      • 2019-07-26
      • 2016-03-22
      • 2014-11-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多