【发布时间】:2020-08-27 14:04:27
【问题描述】:
网页:https://fbref.com/en/comps/9/gca/Premier-League-Stats
我已经刮掉了第一张桌子,现在我正试图刮掉第二张桌子。
import requests
from bs4 import BeautifulSoup
URL = 'https://fbref.com/en/comps/9/gca/Premier-League-Stats'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
stepa= soup.find(id="all_stats_gca")
以上工作正常,但我不能再进一步了? 我原以为下一步会是
stepb=stepa.find("div",{"class":"table_outer_container"})
但是在打印时返回无。还有其他建议吗?
【问题讨论】:
-
在快速检查了该页面的源代码后,我没有在 id 为
all_stats_gca的 div 内看到任何具有名为table_outer_container的类的 div -
也许你想要id为
all_stats_gca_squads的div -
很确定它在那里,虽然有一点点下降,不,我用
all_stats_gca_squads作为我刮@revliscano的第一张桌子 -
哦,是的,对。问题是你感兴趣的内容被评论了。我检查了他们是否在该 div 中添加了一个名为
commented的类。他们必须这样做是为了保护他们的数据。您可以通过打开源代码 (CTRL + U) 来查看这一点,而不是检查 devtools 中的元素。 -
是的,我确认他们的 js 文件中有一个函数来显示评论的内容。我必须说,他们很好地保护了他们。将来会牢记这一点
标签: python web-scraping beautifulsoup