【发布时间】:2019-05-11 22:35:31
【问题描述】:
我已经通过 BS4 熟悉了使用 Python 进行网络抓取。我一直无法找到嵌入在 cmets 中的 DOM 标签的解决方案。例如,当尝试从 .html 页面 (https://www.basketball-reference.com/teams/GSW/2018/lineups/) 获取数据时,检查页面上的表格会显示:
<div class='table_outer_container"> ... </div>
我通常可以使用 BeautifulSoup 抓取。但是,当我查看实际页面源时,所述表格包含在评论标签中:
<!--
<div class='table_outer_container"> ... </div>
-->
我一直找不到通过 BS4 访问它的方法。有没有办法解决这个问题?
谢谢。
【问题讨论】:
-
看起来stackoverflow.com/q/3507283/3491475 回答了这个问题。
-
据我了解,这是指提取cmets,这肯定是问题的一部分。但是,当使用此方法时,它会将它们的内容作为字符串返回,无法使用 BS4 进一步解析。我想知道是否有办法提取 cmets 并进一步解析它们,就好像它们是 DOM,而不仅仅是文本
-
"它将它们的内容作为字符串返回,不能用 BS4 进行进一步解析" - 嗯...将 HTML 字符串解析为树是 BS4 所做的.
标签: python html web-scraping beautifulsoup