【发布时间】:2019-02-10 20:58:21
【问题描述】:
目前,我正在尝试在 sec.gov 上抓取 10-K 提交文本文件。
这是一个示例文本文件:
https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt
文本文档包含 HTML 标记、CSS 样式和 JavaScript 等内容。理想情况下,我想在删除所有标签和样式后只抓取内容。
首先,我尝试了 BeautifulSoup 中显而易见的 get_text() 方法。那没有成功。
然后我尝试使用正则表达式删除 之间的所有内容。不幸的是,这也没有完全解决。它保留了一些标签、样式和脚本。
有没有人有一个干净的解决方案来实现我的目标?
到目前为止,这是我的代码:
import requests
import re
url = 'https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt'
response = requests.get(url)
text = re.sub('<.*?>', '', response.text)
print(text)
【问题讨论】:
标签: python regex python-3.x web-scraping