【发布时间】:2020-04-26 03:28:33
【问题描述】:
我正在做一个个人项目,我正在尝试使用 Python 从财务数据网站上抓取 HTML 表格。我能够成功使用 Python 中的 requests 包访问 public 网站并提取任何信息(之后使用 BeautfulSoup4 进行处理),但我使用的代码如下所示:
# import requests
import requests
# access website
url = 'https://financial-data-url.ezproxy1.library.uniname.edu.com/path/to/financial/data'
headers = example_header
page = requests.get(url, headers = headers)
但是,尝试访问该网站通常需要通过 EZproxy 服务器(如示例 url 所示)通过我大学的图书馆数据库登录。当我通过图书馆数据库访问后尝试请求财务数据网页的 URL 时,它返回的似乎是大学图书馆 EZproxy 网页。这是我需要点击“登录”的地方,然后才能被定向到财务数据网页。
请求函数中是否有一些我可能缺少的凭据条款,或者可能是通过不同的方式将代理服务器传递到 URL 以使请求不会出现在代理服务器登录页面上?
【问题讨论】:
-
请求功能中是否有一些我可能遗漏的凭据条款 你做过任何研究吗?参见,例如requests.readthedocs.io/en/master/user/authentication。
标签: python html web-scraping python-requests proxy-server