【发布时间】:2016-07-31 01:51:59
【问题描述】:
我想在 python 3.5 中使用美丽的汤从以下网站的表格中提取信息。
http://www.askapatient.com/viewrating.asp?drug=19839&name=ZOLOFT
我必须先保存网页,因为我的程序需要离线运行。
我将网页保存在计算机中,并使用以下代码提取表格信息。但问题是代码只是提取表格的标题。
这是我的代码:
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
url = "file:///Users/MD/Desktop/ZoloftPage01.html"
home_page= urlopen(url)
soup = BeautifulSoup(home_page, "html.parser")
table = soup.find("table", attrs={"class":"ratingsTable" } )
comments = [td.get_text() for td in table.findAll("td")]
print(comments)
这是代码的输出:
['RATING', '\xa0 REASON', 'SIDE EFFECTS FOR ZOLOFT', 'COMMENTS', 'SEX', 'AGE', 'DURATION/DOSAGE', 'DATE ADDED ', '\xa0’]
我需要表格行中的所有信息。 感谢您的帮助!
【问题讨论】:
标签: python python-3.x beautifulsoup bs4