【问题标题】:Decoding a web page with BeautifulSoup and requests使用 BeautifulSoup 和请求解码网页
【发布时间】:2020-04-12 16:02:09
【问题描述】:

我第一次尝试这个,所以要温柔... :-)

接下来:

https://stackoverflow.com/questions/54117047/decode-a-web-page-using-request-and-beautifulsoup-package

我将接受的答案作为我的基础。

我的代码:

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen

base_url = 'https://www.nytimes.com/'
r = requests.get(base_url)
soup = BeautifulSoup(urlopen(base_url), features="lxml")

get_titles = soup.find_all(class_="css-6n7j50")

print()
for title in get_titles:
    print(title.text)

我可以在调试器中看到汤里的两个项目:

但没有打印出来。

我要做的就是从 base_url 中提取标题,格式化并打印出来。

【问题讨论】:

  • 看起来不适合我。类可能会被动态重新排列。

标签: python-3.x beautifulsoup python-requests


【解决方案1】:

它打印空字符串的原因是你在运行时

for title in get_titles:
    print(title.text)

标题的对象中没有文字。 text 属性返回标签的内部 HTML 和 title 对象中只有标签的属性的值。

【讨论】:

  • 可以使用 print(title) 获取所有标签
    并从中解析您需要的相关部分
猜你喜欢
  • 2021-10-15
  • 2020-04-20
  • 1970-01-01
  • 2015-02-16
  • 2020-07-24
  • 2016-02-21
  • 1970-01-01
  • 2015-04-28
  • 1970-01-01
相关资源
最近更新 更多