【发布时间】:2021-01-21 14:08:25
【问题描述】:
我正在尝试抓取许多 10K 风险因素部分,例如https://www.sec.gov/Archives/edgar/data/1321502/000143774910004615/andain_10k-123106.htm
我的一个问题是我试图完全匹配一些字符串(例如“风险因素”),但有时单词之间有几个不间断的空格
我希望我可以把它们去掉,因为它们对我没有用,所以我尝试了:
url = 'https://www.sec.gov/Archives/edgar/data/1321502/000143774910004615/andain_10k-123106.htm'
page = requests.get(url)
soup = BeautifulSoup(page.text.replace("\xa0"," "), 'html.parser')
然后搜索汤(以通常的方式)以测试它是否有效:
soup.find_all(string="ITEM 1A.\xa0\xa0RISK FACTORS")
但输出仍然包含不间断的空格,这是不应该的:
Out[42]: ['ITEM 1A.\xa0\xa0RISK FACTORS']
我做错了什么?
【问题讨论】:
标签: python html beautifulsoup