【发布时间】:2016-05-24 19:43:02
【问题描述】:
我希望从 sec.gov 网站上抓取大量文件,目前进展顺利。问题是旧文件是 .txt 格式,没有任何真正的 HTML 格式。有没有办法使用 Python 从这些文件中获取信息?
Here's a link to an example document
我有大约 30,000 个这样的人要做,而旧文档是我的老板真正想要的……我目前正在使用 BeautifulSoup4 来处理其他格式正确的刮擦。
提前致谢!
【问题讨论】:
-
您想获取什么样的信息?
-
如果它们不是 HTML 也不是网页抓取,只是普通解析。
-
你需要添加一些预期的输出。
-
为了解析文本文件,你可以使用纯 Python,作为字符串函数和正则表达式。我编写了一个小型库来帮助完成这项任务,您可以在其中定义要提取的内容作为模型定义。它适用于您拥有半结构化数据的情况。也许它可以帮助你:github.com/fgmacedo/raspador
-
是的,Python 擅长文本处理。文档是否包含足够的逻辑信息以允许您提取所需的数据,这是我们无法从问题中判断出来的。
标签: python python-3.x web-scraping beautifulsoup