【发布时间】:2022-11-10 08:40:27
【问题描述】:
我正在尝试创建一个 Python WebScraper,它从 Internet 获取数据并将其转换为一个表,然后我将其导出为 .csv 文件。我试图让这个程序工作的示例网站是:https://asdc.larc.nasa.gov/data/AJAX/O3_1/2018/06/06/AJAX-O3_ALPHA_20180606_R1_F229.ict
我计划使用BeautifulSoup 库来执行此操作,但是当我意识到感兴趣的网页的整个文本都嵌套在一个标签中时,我碰壁了,如下图所示。有谁知道我可以从这个 HTML 文本块中提取特定单词和值的任何方法?例如,我想创建 7 列。当我使用findAll 函数在文本中查找这些列标题时,在打印结果时会返回整个文本块,因为所有文本都位于<p></p> 标记之间。
我的一个假设是在代码行之间添加 HTML 标记,然后使用 Python 访问,但我不知道这是否可以实现。
【问题讨论】:
-
它基本上只是纯文本,没有结构或格式。您执行此操作的方式与处理普通文本文件的方式相同。
-
它不适用于计算机解析,仅供人类阅读。因此,请加强您的自然语言解析技能。
-
所以我收集到的是,对于新手程序员来说,这不是一个很棒的第一个项目吗?
-
如果你仍然倾向于,那么是的,这不是一个伟大的第一个项目。首先,尝试一些更有条理的东西。这是可行的,但这里没有真正的结构,并且需要大量的婴儿。
-
正则表达式在这里可能有用
标签: python html web-scraping insert tags