Python中非英语语言的正则表达式匹配答案

【问题标题】：Regex match for a non-english language in PythonPython中非英语语言的正则表达式匹配
【发布时间】：2011-01-25 13:57:53
【问题描述】：

我正在尝试在 python 脚本中捕获和匹配俄语字符。由于俄罗斯字符不属于 [a-Z] 类型，我应该使用什么正则表达式来匹配它们。我不能使用 (.*) 因为它会匹配所有内容。

linkpat = re.compile('name=[a-Z]+;size=[0-9]+')

【问题讨论】：

【解决方案1】：

使用 unicode 标志：

re.compile('name=\w+;size=\d+', re.U)

这也可以匹配任何语言的任何字母（加上下划线），而不仅仅是俄语。

【讨论】：

【解决方案2】：

您可以尝试使用正确的\w LOCALE

【讨论】：

【解决方案3】：

使用依赖于语言环境的字符类

【讨论】：