【发布时间】:2016-11-01 22:44:57
【问题描述】:
我使用 python 和 selenium 编写了一个函数来在 url 上使用 BeautifulSoup:
def get_soup(url):
d = webdriver.Chrome()
d.get(url)
result = d.page_source
soup = BeautifulSoup(result, 'html.parser')
return soup
我正在尝试从以下网址获取当前 NHL 排名:https://www.nhl.com/standings/league
我遇到了 2 个我不知道如何解决的问题:
1) 如果您点击此网址,它会将您带到“联赛”标签,但抓取不会区分此标签和其他标签。
2) “全国冰球联盟”列中的三个元素(排名、标志、名称)是三个独立的东西,但它们在一个列中。
我想将此数据提取到 pandas 数据框中。
【问题讨论】:
标签: python selenium beautifulsoup