【发布时间】:2019-11-07 11:33:59
【问题描述】:
作为我工作的一部分,我需要定期查看此page 以获取特定文件。我发现我可以使用 pandas 的方法read_html 成功地将表格读入数据框(这很方便,因为我可以通过关键字轻松查询特定文档)。
我现在遇到的问题是此方法无法解析我需要的链接,而是保存纯文本(具体来说,我指的是第二列,其数字类似于“1682/0/15-19”)。
我想出的代码很简单:
import pandas as pd
df = pd.read_html('http://www.vru.gov.ua/act_list')[0]
这给了我一个数据框,其中包含我需要的所有信息,除了链接。
是否有可能以某种方式获取链接而不是纯文本,如果可以,我该怎么做?
我知道如果我使用了 Requests 和 BeautifulSoup 库,就可以获得 href 链接,但我不知道 BeautifulSoup 库是否足够好。 有什么建议吗?还是我应该只学 BeautifulSoup?
【问题讨论】:
-
您在“Номер”列中寻找的链接吗?如果是这样,您是否正在寻找(例如)`http://www.vru.gov.ua/act/18641'形式的链接列表?
-
pandas
read_html(),据我所知,只会解析来自<table>标签的内容,而不是任何其他关联的属性。你必须使用 BeautifulSoup。有很多教程可以看。谷歌搜索会让你找到许多可用的 -
这里有一些潜在的解决方案:stackoverflow.com/questions/31771619/…
-
@JackFleeting,是的,你是对的!
-
@MichaelB 谢谢!这帮助很大!
标签: html pandas web-scraping beautifulsoup python-requests