【发布时间】:2020-06-30 19:02:29
【问题描述】:
我正在尝试使用 Beautiful Soup 检索 this page:
这是我尝试过的代码:
import requests
from bs4 import BeautifulSoup
page = requests.get("https://www.nasdaq.com/market-activity/stocks/msft/news-headlines")
每次我运行我的代码时,它都会卡住并且无法检索页面。但是,我收到了一次 ReadTimeout 异常 (requests.exceptions.ReadTimeout: HTTPSConnectionPool(host='www.nasdaq.com', port=443): Read timed out. (read timeout=None))。
对于此问题的任何帮助或修复将不胜感激。
【问题讨论】:
-
此代码尝试使用
requests读取 URL,而不是 BeautifulSoup。您请求的网站似乎发送了大量数据或从未真正关闭连接,导致您提到的ReadTimeout,或者它只是挂起。我不确定解决方案,但我确信研究“Why requests.get hangs”之类的内容会产生有用的结果。
标签: python beautifulsoup python-requests user-agent