【发布时间】:2020-07-07 18:14:06
【问题描述】:
因此,作为我一直试图抓取的网站的序言,似乎有/使用(我不确定与 Web 开发等相关的行话)javascript 代码,并且我一直在尝试取得不同程度的成功在不同的页面上抓取不同的表格。
例如在此页面上:http://www.tennisabstract.com/cgi-bin/player.cgi?p=NovakDjokovic 我很容易能够“检查元素”然后转到 Network 找到脚本的正确“名称”,然后找到我需要的请求 URL 来获取我需要的表通缉。我用于此的代码是:
url = 'http://www.minorleaguesplits.com/tennisabstract/cgi-bin/frags/NovakDjokovic.js'
content = requests.get(url)
soup = BeautifulSoup(content.text, 'html.parser')
table = soup.find('table', id='tour-years', attrs= {'class':'tablesorter'})
dfs = pd.read_html(str(table))
df = pd.concat(dfs)
但是,现在当我查看同一站点上的不同页面时,例如http://www.tennisabstract.com/charting/20190714-M-Wimbledon-F-Roger_Federer-Novak_Djokovic.html,我无法找到可以让我最终获得所需表格的请求 URL。我重复与上面相同的过程,但在包含表格的网络选项卡下没有.js 脚本。当我查看 html 元素时,我确实看到了表格,但是如果没有正确的 url,我当然无法获得它。
所以我的问题是,我怎样才能从这个页面http://www.tennisabstract.com/charting/20190714-M-Wimbledon-F-Roger_Federer-Novak_Djokovic.html 获取表格?
TIA!
【问题讨论】:
标签: python python-3.x web-scraping beautifulsoup python-requests