【发布时间】:2018-06-28 15:36:43
【问题描述】:
我有兴趣从晨星网站下载财务报表。这里有一个页面的例子:
http://financials.morningstar.com/cash-flow/cf.html?t=PIRC®ion=ita&culture=en-US
右上角有导出到csv的按钮,我想用Python点击它。按检查,我有这个 HTML 标签:
<div class="exportButton">
<span class="icon_1_span">
<a href="javascript:SRT_stocFund.Export()" class="rf_export">
</a> ==$0
我的想法是使用 bs4 - BeautifulSoup 来解析(完全不确定我是否需要解析它)页面并找到单击它的按钮。比如:
quote_page = pageURL
page = urlopen(quote_page)
soup = BeautifulSoup(page, "html.parser")
bs = soup.find(href="javascript:SRT_stocFund.Export()", attrs={"class":"rf_export"})
显然,这不会返回任何内容。您对我如何告诉 Python 导出表中的数据有什么建议吗? IE。自动化下载 csv 文件的过程,而不是去网页上自己做。
非常感谢!!
【问题讨论】:
-
您应该尝试了解
SRT_stocFund.Export()的作用并从那里开始工作。
标签: python html automation export-to-csv