【发布时间】:2022-01-08 07:00:02
【问题描述】:
我正在尝试抓取这个网站:https://madduxsports.com/college-basketball-lines.php
我对 python 和抓取非常陌生,我相信这个网站有一个用 JavaScript 生成的表格。
我希望只抓取前 7 列。
我试过了
from requests_html import HTMLSession
from bs4 import BeautifulSoup
session = HTMLSession()
resp = session.get("https://madduxsports.com/college-basketball-lines.php")
resp.html.render()
soup = BeautifulSoup(resp.html.html, "lxml")
script_tags = soup.find_all("script")
print(script_tags)
这将获得带有<script> 标签的所有内容,其中包含表格数据,但我不知道如何获得前 7 列。
感谢您的帮助
【问题讨论】:
标签: javascript python web-scraping