【发布时间】:2017-09-03 17:54:40
【问题描述】:
<div class="features clearfix">
<span> <img src="/App_Theme/css/img/ico_area.png" width="36" height="36" class="imgvertical">
78,00 a 207,00 m²
</span>
<span><img src="/App_Theme/css/img/ico_bed.png" class="imgvertical"></i>
Desde
2
</span>
<span><img src="/App_Theme/css/img/ico_bath.png" width="36" height="36" class="imgvertical">
Desde
2
</span>
<span><img src="/App_Theme/css/img/ico_garaje.png" width="36" class="imgvertical" height="36">
Sin especificar
</span>
</div>
试图在上面的标签中删除数据,但是输出字符串只打印不可读的字符,而不是正确的数据
我的代码
import requests
from bs4 import BeautifulSoup
page = requests.get('https://www.fincaraiz.com.co/oceana-52/barranquilla/proyecto-nuevo-det-1041165.aspx')
soup = BeautifulSoup(page.content, 'lxml')
box_2 = soup.find('div' ,'features clearfix')
box_2_1 = box_2.findAll('span')
box2 = []
for row2 in box_2_1:
box2.append(row2.text)
print (box2)
但它会打印如下所示的输出
[' \r\n 78,00 a 207,00 m²\r\n \r\n ', ' \r\n \r\n Desde\xa0\r\n 2\r\n \r \n \r\n ', '\r\n \r\n Desde\xa0\r\n 2\r\n\r\n \r\n ', '\r\n \r\n 特殊性\r\n \r\n ']
这里的预期输出是:
78,00 到 207,00 平方米 德斯德 2 德斯德 2 特别特别
我已经尝试了 utf-8 编码以及代码,但它仍然提供相同的输出。如何避免 unicode 错误?
【问题讨论】:
标签: python web-scraping character-encoding python-unicode unicode-string