【发布时间】:2015-11-11 21:07:19
【问题描述】:
我有数百万个从网上抓取的字符串,例如:
s = 'WHAT\xe2\x80\x99S UP DOC?'
type(s) == str # returns True
从网络上抓取时不可避免地会出现上述字符串中的特殊字符。应该如何删除所有这些特殊字符以保留干净的文本?基于我对 unicode 字符的非常有限的经验,我正在考虑这样的正则表达式:
\\x.*[0-9]
【问题讨论】:
-
它们不是特殊字符,是一个utf-8编码的字符串,打印时会输出
WHAT’S UP DOC? -
所以你想删除任何非ascii?即
print(s.decode("ascii",errors="ignore")) -
像黄油一样工作。谢谢!!
-
@mousecoder,工作吧
标签: python regex unicode special-characters python-unicode