【发布时间】:2020-12-24 04:59:01
【问题描述】:
我有一个数据框列 ("albums"),其中大多数值以纯文本形式编码(例如:"Album"、"Album 2" 等),但有些值具有 utf-8 或其他与纯文本相结合的值。例如,代替文本 "Précis" 我有 "Pr\xc3\xa9cis." 还有一些 HTML 编码,例如 "\'" 代替文本中的撇号。
有没有一种简单的方法可以将所有内容转换为纯文本,而无需搜索和替换每个可能的 utf/unicode/html?
【问题讨论】:
-
对于 HTML 代码,您可以尝试
urllib.parse中的一些功能。对于\xc3\xa,您可以将encode()与decode()一起尝试,但使用不同的值 - 请参阅Standard Encodings¶。可能您需要编码raw_unicode_escape或unicode_escape或两者。