【发布时间】:2020-01-27 20:07:10
【问题描述】:
到目前为止,这是我的代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(website_url,'lxml')
my_table = soup.find('table',{'class':'wikitable sortable'})
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url = 'https://en.wikipedia.org/wiki/2019%E2%80%9320_Wuhan_coronavirus_outbreak'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
page_soup.tbody.tr?
我正在尝试定位此表格元素,但它不是唯一的。如何捕获这个名为“
我可以做 page_soup.h1 来获取所有 h1 标签的东西,但是这里有很多重复的标签,我可以使用一些帮助。我做了UTFSE,但仍然很困惑。感谢您的宝贵时间。
【问题讨论】:
标签: python python-3.x web-scraping beautifulsoup