【问题标题】:Transform unicode string in python在python中转换unicode字符串
【发布时间】:2012-05-03 02:59:20
【问题描述】:
{u'Status': u'OK', u'City': u'Ciri\xe8', u'TimezoneName': '', u'ZipPostalCode': '', u'CountryCode': u'IT', u'Dstoffset': u'0', u'Ip': u'x.x.x.x', u'Longitude': u'7.6', u'CountryName': u'Italy', u'RegionCode': u'12', u'Latitude': u'45.2333', u'Isdst': '', u'Gmtoffset': u'0', u'RegionName': u'Piemonte'}

这是我的对象的输出。我想访问 City 但它已编码。如何读取所有参数并对其进行解码

>>> data['City']
u'Ciri\xe8'

>>>data['City'].decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe8' in position 4: ordinal not in range(128)

我想要纯文本而不是 unicode 字符串。谢谢!

【问题讨论】:

  • 没有“明文”这样的东西。
  • 您无需执行任何操作。已经解码...试试print data['City']
  • 正如您在帖子中看到的 print data['City'] 的结果是 u'Ciri\xe8'
  • 不,您刚刚输入了data['City']。试试print data['City']。对我来说,在 iPython 中,这很重要。

标签: python unicode dictionary


【解决方案1】:

阅读:http://nedbatchelder.com/text/unipain.html

然后打印出来:

>>> data = {u'City':u'Ciri\xe8'}
>>> data['City']
u'Ciri\xe8'
>>> print data['City']
Ciriè

如果你不打印它,Python 会打印出字符串的安全表示,表明它是 Unicode 文本 u'',并且它包含一个非 ASCII 字符 \xe8print 尝试通过在终端编码中对 Unicode 字符串进行编码来显示非 ASCII 字符。如果字符串包含终端编码不支持的字符,它可能会失败:

>>> print u'\xe8'
è
>>> print u'\x81'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "d:\dev\Python27\lib\encodings\cp437.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode character u'\x81' in position 0: character maps to <undefined>

在上面的例子中,code page 437 支持 Unicode 字符 U+00E8,但不支持 U+0081。

【讨论】:

    【解决方案2】:

    你想要什么不清楚。如果“纯文本”是指删除重音,试试这个:

    >>> s = u'Ciri\xe8'
    >>> from unicodedata import normalize
    >>> normalize('NFKD', s).encode('ASCII', 'ignore')
    'Cirie'
    

    【讨论】:

      【解决方案3】:

      通过纯文本,我想你的意思是 ascii。为此,您可以使用:

      data['City'].encode('ascii','ignore')
      

      这将去除 unicode 字符并返回

      Ciri
      

      查看此链接了解更多信息:http://docs.python.org/howto/unicode.html

      【讨论】:

        猜你喜欢
        • 2010-09-27
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-01-27
        相关资源
        最近更新 更多