【发布时间】:2011-12-07 19:59:10
【问题描述】:
如果 HTML 包含 ascii 超过 128 的 unicode,Beautiful Soup 似乎无法正常工作(对我来说)。应该使用什么合适的解码编码?
raw = open('index.html').read()
BeautifulSoup.BeautifulSoup(raw)
错误
...stacktrace...
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 8094: ordinal not in range(128)
【问题讨论】:
标签: python regex html-parsing beautifulsoup