使用 BeautifulSoup 和请求解码网页答案

【问题标题】：Decoding a web page with BeautifulSoup and requests使用 BeautifulSoup 和请求解码网页
【发布时间】：2020-04-12 16:02:09
【问题描述】：

我第一次尝试这个，所以要温柔... :-)

接下来：

https://stackoverflow.com/questions/54117047/decode-a-web-page-using-request-and-beautifulsoup-package

我将接受的答案作为我的基础。

我的代码：

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen

base_url = 'https://www.nytimes.com/'
r = requests.get(base_url)
soup = BeautifulSoup(urlopen(base_url), features="lxml")

get_titles = soup.find_all(class_="css-6n7j50")

print()
for title in get_titles:
    print(title.text)

我可以在调试器中看到汤里的两个项目：

但没有打印出来。

我要做的就是从 base_url 中提取标题，格式化并打印出来。

【问题讨论】：

看起来不适合我。类可能会被动态重新排列。

标签： python-3.x beautifulsoup python-requests

【解决方案1】：

它打印空字符串的原因是你在运行时

for title in get_titles:
    print(title.text)

标题的对象中没有文字。 text 属性返回标签的内部 HTML 和 title 对象中只有标签的属性的值。

【讨论】：

可以使用 print(title) 获取所有标签

并从中解析您需要的相关部分