【发布时间】:2018-05-29 18:44:25
【问题描述】:
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
url = 'https://edition.cnn.com/'
page = requests.get(url,headers=headers)
soup = BeautifulSoup(page.content,"html.parser")
al = soup.find_all("h3",attrs={'class':'cd__headline'})
for divv in al:
for links in divv.find_all('a'):
print(links.text)
print(links.get('href'))
我正在尝试从 cnn 中提取头条新闻。我正在提供带有正确 html 元素和类的汤,但输出仍然为空,我没有收到任何错误或回溯
【问题讨论】:
-
您需要进行更多调试才能确定问题。 A)在不同的网站上试试这个。 B)在您保存在磁盘上的静态页面上尝试此操作。 C) 将此代码模块化,使错误更加明显,您可以单独测试部分代码。
-
@tadman 我在不同的网站上尝试过相同的代码,效果很好
-
那你需要了解
edition.cnn.com的独特之处 -
@tadman 当我在 edition.cnn.com 上使用带有 bs4 的 Selenuim 时,相同的标签工作正常