【发布时间】:2014-01-07 23:35:27
【问题描述】:
如何保留 åäö 但从字符串中删除所有其他非字母数字字符? (我发现了类似的问题,但似乎没有一个正确的答案。)
我尝试了诸如扩展正则表达式以尝试使其跳过 sub 中的 åäö 之类的东西,但它似乎只是使正则表达式停止一起工作,让空格等也保留下来。 我通常不使用 python 编程,只是想帮助一个朋友,所以可能有一些比使用 re 更好的方法来清理字符串。
通过谷歌搜索,我认为这与 Unicode 有关,但没有好的解决方案。
def ordnaText(text):
text = text.lower()
text = re.sub('\W', '', text)
if text.isalnum() == True:
return text
【问题讨论】:
-
这是 python 2 还是 3?
-
什么是
type(text)? -
我不是 100% 确定你的意思 Eric,但它是一个字符串?来自 raw_input
-
@A.collin:这是一条重要的信息。
-
@A.collin:当你在代码中添加
print type(text)这一行时,输出是什么?
标签: python regex encode python-2.x non-ascii-characters