【发布时间】:2021-02-12 19:00:32
【问题描述】:
我试图用英语和俄语的所有标点符号分割文本。这适用于空格。出于某种原因 \s 无法正常工作。 allRussianWords 最终包含空格,但我不希望它。
allRussianWords = re.split("[—…();«»!?.:,%\s\n]",words)
这是我试图拆分的字符串
words = "привет, моё имя Мэтт. Как ты?"
标点是俄语的
【问题讨论】:
-
为什么不改为
re.findall(r"\b\w+?\b", words)? -
它不起作用。我认为可能是俄罗斯角色搞砸了
-
allRussionWords是否包含空格或空字符串?在这种情况下,它看起来像re.split的方式是,如果它遇到两个连续的分隔符,它将为第二个分隔符生成空字符串。 -
好的,你的 Python 版本是什么,字符串是否包含不间断的空格?
-
我的字符串是这个
标签: python split space spaces python-re