【发布时间】:2009-11-14 00:30:47
【问题描述】:
我使用 lxml 来解析一些网页如下:
>>> doc = lxml.html.fromstring(htmldata)
>>> element in doc.cssselect(sometag)[0]
>>> text = element.text_content()
>>> print text
u'Waldenstr\xf6m'
为什么在这里打印 u'Waldenstr\xf6m' 而不是 "Waldenström"?
之后,我尝试将此文本添加到具有 UTF-8 字符集和 utf8_general_ci collatio 的 MySQL 表中,Users 是 Django 模型:
>>> Users.objects.create(last_name=text)
'ascii' codec can't encode character u'\xf6' in position 9: ordinal not in range(128)
我在这里做错了什么?如何获取正确的数据“Waldenström”并将其写入数据库?
【问题讨论】: