【发布时间】:2021-08-08 18:08:33
【问题描述】:
我有一个这样的 html 文档:https://dropmefiles.com/wezmb
所以我需要在标签
但它会从所有“跨度”标签中提取所有信息。那么,如何在 Python 中提取标签
from bs4 import BeautifulSoup
with open("10_01.htm") as fp:
soup = BeautifulSoup(fp,features="html.parser")
for a in soup.find_all('span'):
print (a.string)
【问题讨论】:
-
您只使用名为“BeautifulSoup”的 Python 库中的函数,您是否考虑过只使用普通 Python 函数来解析文本?
-
@GeoffGriswald BeautifulSoup 已用于抓取网页。它无法解析文本,因为它不是为此目的而制作的。在决定回答主题中的问题之前,请先了解与主题(即网络抓取)对应的基本库。
-
不,我没有考虑过使用简单的功能。你能帮忙用它们来解决这个问题吗?
-
@Terry 无需担心“普通 python 函数”,因为它们不会以简单的方式从 HTML 中提取文本,例如
bs4允许您(通过使用.find_all和其他方法)。 -
@Samarth Bhatia 哦,好吧。谢谢帮忙!
标签: python html beautifulsoup tags extract