【发布时间】:2020-03-13 07:34:30
【问题描述】:
我正在尝试使用漂亮的汤将文本从 HTML 中的某个类中取出。我已成功获取文本,但其中有一些异常(无法识别的字符),如下图所示。如何使用 python 代码解决它,而不是手动删除这些异常。
代码:
try:
html =requests.get(url)
except:
print("no conection")
try:
soup = BS(html.text,'html.parser')
except:
print("pasre error")
print(soup.find('div',{'class':'_3WlLe clearfix'}).get_text())
【问题讨论】:
-
这是一个编码错误。
html.text很可能推断出错误的编码。网址是什么? -
@GordonAitchJay timesofindia.com/india/…
标签: html python-3.x web-scraping