【发布时间】:2021-05-10 21:48:21
【问题描述】:
我正在尝试抓取以下内容:
尤其是在第一张表中获取总计(大宗交易、EFP、EFR 等)
当我检查页面时,我得到的结果与我实际去抓取并获取“页面源”数据时不同。这让我很难找到数据(我是新手)
经过一番探索,我找到了https://www.cmegroup.com/CmeWS/exp/voiProductDetailsViewExport.ctl?media=json&tradeDate=20210507&reportType=F&productId=316中的数据 这是一个excel文件
到目前为止我的代码是
header= {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '
'AppleWebKit/537.11 (KHTML, like Gecko) '
'Chrome/23.0.1271.64 Safari/537.11',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding': 'none',
'Accept-Language': 'en-US,en;q=0.8',
'Connection': 'keep-alive'}
url = "https://www.cmegroup.com/content/cmegroup/en/trading/interest-rates/us-treasury/10-year-us-treasury-note_quotes_volume_voi.html"
r = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
response = urlopen(r)
soup = BeautifulSoup(response, 'lxml')
简而言之,有没有人推荐一种比整理 Excel 文件更好的方法?谢谢!
【问题讨论】:
标签: python web-scraping beautifulsoup