在 Python 中从带有重音符号的字符串中删除所有非字母字符答案

【问题标题】：Removing all non-letter chars from a string with accents in Python在 Python 中从带有重音符号的字符串中删除所有非字母字符
【发布时间】：2021-09-02 13:30:14
【问题描述】：

我正在尝试使用 Python 3.7 从包含重音符号的字符串中删除所有非字母字符（空格除外）。我尝试了以下方法：

import re

text = "Андре́й Серге́евич Арша́вин (род. 29 мая 1981[4], Ленинград) — российский футболист, бывший капитан сборной России, заслуженный мастер спорта России (2008)."
clean_text = re.sub('[\W_\d]+', ' ', text)
print(clean_text)

输出是

Андре й Серге евич Арша вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

为什么我的结果字符串中的重音字符后面有一个空格？这似乎违反了最小意外原则。所以我尝试了不同的解决方案

text = "Андре́й Серге́евич Арша́вин (род. 29 мая 1981[4], Ленинград) — российский футболист, бывший капитан сборной России, заслуженный мастер спорта России (2008)."
clean_text2 = "".join(c for c in text if c.isalpha() or c == " ")
print(clean_text2)

输出是

Андрей Сергеевич Аршавин род  мая  Ленинград  российский футболист бывший капитан сборной России заслуженный мастер спорта России

这几乎是我想要的，除了它从字符中删除了重音。我想得到以下结果：

Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

有没有办法从字符串中删除所有非字母字符，但保留字符上的重音符号？

【问题讨论】：

"为什么我的结果字符串中的重音字符后面有一个空格？" - 因为重音是一个单独的字符：text[5] == '́'，因为俄语没有重音，不像法语，例如。
试试：re.sub(r'[^\pLе́]+', ' ', text)

标签： python regex string unicode

【解决方案1】：

俄语单词重音符号的基本解决方案

俄语字母没有重音，字符串中的重音表示单词重音，并且只用于特定的书面演讲，如外国人教科书、儿童书籍等。

е́ 是 e 字母和 \u0301 字符，0301 COMBINING ACUTE ACCENT。可以从您的模式中减去唯一的重音变音符号以获得您想要的结果：

clean_text = re.sub(r'(?:(?!\u0301)[\W\d_])+', ' ', text)

查看Python demo 产量

Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

请参阅regex demo online。

支持所有变音符号的解决方案 - PyPi 正则表达式模块

要保留所有变音符号，最简单的方法是安装PyPi regex module（带有pip install regex），然后使用\p{L} 和\p{M} Unicode 属性类：

import regex

text = "Андре́й Серге́евич Арша́вин (род. 29 мая 1981[4], Ленинград) — российский футболист, бывший капитан сборной России, заслуженный мастер спорта России (2008)."
print ( regex.sub(r'[^\p{L}\p{M}]+', ' ', text) )
# => Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России
print( " ".join(regex.findall(r'(?>\p{L}\p{M}*+)+', text)) ) 
# => Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

这里，\[^\p{L}\p{M}\]+ regex 匹配除 Unicode 字母 (\p{L}) 和变音符号 (\p{M}) 之外的任何 1 个或多个字符。另一个解决方案，(?>\p{L}\p{M}*+)+ 和 re.findall，从文本中提取所有字母 + 变音符号块，然后 " ".join(...) 用空格连接它们。

变音符号支持 Python re

您将需要“拼出”\p{M} 类，并且可以使用 [^\W\d_] 构造匹配任何 Unicode 字母。在这里使用 find-all-words-and-then-concatenate 方法而不是 re.sub 是有意义的：

import re
combining_marks_bmp = '\u0300-\u036F\u0483-\u0489\u0591-\u05BD\u05BF\u05C1\u05C2\u05C4\u05C5\u05C7\u0610-\u061A\u064B-\u065F\u0670\u06D6-\u06DC\u06DF-\u06E4\u06E7\u06E8\u06EA-\u06ED\u0711\u0730-\u074A\u07A6-\u07B0\u07EB-\u07F3\u0816-\u0819\u081B-\u0823\u0825-\u0827\u0829-\u082D\u0859-\u085B\u08E3-\u0903\u093A-\u093C\u093E-\u094F\u0951-\u0957\u0962\u0963\u0981-\u0983\u09BC\u09BE-\u09C4\u09C7\u09C8\u09CB-\u09CD\u09D7\u09E2\u09E3\u0A01-\u0A03\u0A3C\u0A3E-\u0A42\u0A47\u0A48\u0A4B-\u0A4D\u0A51\u0A70\u0A71\u0A75\u0A81-\u0A83\u0ABC\u0ABE-\u0AC5\u0AC7-\u0AC9\u0ACB-\u0ACD\u0AE2\u0AE3\u0B01-\u0B03\u0B3C\u0B3E-\u0B44\u0B47\u0B48\u0B4B-\u0B4D\u0B56\u0B57\u0B62\u0B63\u0B82\u0BBE-\u0BC2\u0BC6-\u0BC8\u0BCA-\u0BCD\u0BD7\u0C00-\u0C03\u0C3E-\u0C44\u0C46-\u0C48\u0C4A-\u0C4D\u0C55\u0C56\u0C62\u0C63\u0C81-\u0C83\u0CBC\u0CBE-\u0CC4\u0CC6-\u0CC8\u0CCA-\u0CCD\u0CD5\u0CD6\u0CE2\u0CE3\u0D01-\u0D03\u0D3E-\u0D44\u0D46-\u0D48\u0D4A-\u0D4D\u0D57\u0D62\u0D63\u0D82\u0D83\u0DCA\u0DCF-\u0DD4\u0DD6\u0DD8-\u0DDF\u0DF2\u0DF3\u0E31\u0E34-\u0E3A\u0E47-\u0E4E\u0EB1\u0EB4-\u0EB9\u0EBB\u0EBC\u0EC8-\u0ECD\u0F18\u0F19\u0F35\u0F37\u0F39\u0F3E\u0F3F\u0F71-\u0F84\u0F86\u0F87\u0F8D-\u0F97\u0F99-\u0FBC\u0FC6\u102B-\u103E\u1056-\u1059\u105E-\u1060\u1062-\u1064\u1067-\u106D\u1071-\u1074\u1082-\u108D\u108F\u109A-\u109D\u135D-\u135F\u1712-\u1714\u1732-\u1734\u1752\u1753\u1772\u1773\u17B4-\u17D3\u17DD\u180B-\u180D\u18A9\u1920-\u192B\u1930-\u193B\u1A17-\u1A1B\u1A55-\u1A5E\u1A60-\u1A7C\u1A7F\u1AB0-\u1ABE\u1B00-\u1B04\u1B34-\u1B44\u1B6B-\u1B73\u1B80-\u1B82\u1BA1-\u1BAD\u1BE6-\u1BF3\u1C24-\u1C37\u1CD0-\u1CD2\u1CD4-\u1CE8\u1CED\u1CF2-\u1CF4\u1CF8\u1CF9\u1DC0-\u1DF5\u1DFC-\u1DFF\u20D0-\u20F0\u2CEF-\u2CF1\u2D7F\u2DE0-\u2DFF\u302A-\u302F\u3099\u309A\uA66F-\uA672\uA674-\uA67D\uA69E\uA69F\uA6F0\uA6F1\uA802\uA806\uA80B\uA823-\uA827\uA880\uA881\uA8B4-\uA8C4\uA8E0-\uA8F1\uA926-\uA92D\uA947-\uA953\uA980-\uA983\uA9B3-\uA9C0\uA9E5\uAA29-\uAA36\uAA43\uAA4C\uAA4D\uAA7B-\uAA7D\uAAB0\uAAB2-\uAAB4\uAAB7\uAAB8\uAABE\uAABF\uAAC1\uAAEB-\uAAEF\uAAF5\uAAF6\uABE3-\uABEA\uABEC\uABED\uFB1E\uFE00-\uFE0F\uFE20-\uFE2F'
combining_marks_astral = '\uD805[\uDCB0-\uDCC3\uDDAF-\uDDB5\uDDB8-\uDDC0\uDDDC\uDDDD\uDE30-\uDE40\uDEAB-\uDEB7\uDF1D-\uDF2B]|\uD834[\uDD65-\uDD69\uDD6D-\uDD72\uDD7B-\uDD82\uDD85-\uDD8B\uDDAA-\uDDAD\uDE42-\uDE44]|\uD804[\uDC00-\uDC02\uDC38-\uDC46\uDC7F-\uDC82\uDCB0-\uDCBA\uDD00-\uDD02\uDD27-\uDD34\uDD73\uDD80-\uDD82\uDDB3-\uDDC0\uDDCA-\uDDCC\uDE2C-\uDE37\uDEDF-\uDEEA\uDF00-\uDF03\uDF3C\uDF3E-\uDF44\uDF47\uDF48\uDF4B-\uDF4D\uDF57\uDF62\uDF63\uDF66-\uDF6C\uDF70-\uDF74]|\uD81B[\uDF51-\uDF7E\uDF8F-\uDF92]|\uD81A[\uDEF0-\uDEF4\uDF30-\uDF36]|\uD82F[\uDC9D\uDC9E]|\uD800[\uDDFD\uDEE0\uDF76-\uDF7A]|\uD836[\uDE00-\uDE36\uDE3B-\uDE6C\uDE75\uDE84\uDE9B-\uDE9F\uDEA1-\uDEAF]|\uD802[\uDE01-\uDE03\uDE05\uDE06\uDE0C-\uDE0F\uDE38-\uDE3A\uDE3F\uDEE5\uDEE6]|\uD83A[\uDCD0-\uDCD6]|\uDB40[\uDD00-\uDDEF]'
letter = r'[^\W\d_]'
pat = re.compile(r'(?:{}|[{}]|{})+'.format(letter,combining_marks_bmp, combining_marks_astral))
print(" ".join(pat.findall(text)))
# => Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

见online Python demo

【讨论】：

我觉得 OP 会从检查 "Combining Diacritical Marks" Block 中受益，其中包含重音符号 \u0301，并评估是否可能需要其他重音字符。
@r.ook 关于可能需要其他重音字符：俄语中没有重音符号。这里使用的重音符号是写作中很少出现的单词重音，它们不是用来改变词义的，只是显示你应该在哪里发音一个元音，力度更大。它们通常根本不使用，因为我们知道在哪里强调单词。这里不需要\p{M}，这将是多余的开销。除非用户需要处理使用变音符号作为含义变化符号的其他语言。
确实，我的例子（来自外国人学习俄语的教科书）只有几个重音符号来显示单词重音。但是，我也对一个通用解决方案感兴趣，它可以在任何类型的文本中保留所有“组合变音符号”。
@asmaier 你认为 PyPi 正则表达式模块解决方案够用吗？还是您也想要re 解决方案？
@asmaier 添加了另一个，用于re。

【解决方案2】：

试试(?:[^\w\x{301}\s]|[\d_])+
如果使用该符号，则使用 \u0301 而不是 \x{301}

如果支持，也可以使用属性

[^\p{L}\x{0301}\s]+

【讨论】：

【解决方案3】：

我想提供一个不涉及正则表达式的 Pythonic 解决方案。

它对字符串使用translate 方法。

1.Python documenation on str.maketrans

2.Python documentation on str.translate

from string import digits
import itertools as it
import unicodedata

# This creates a special dictionary to pass to the translation method.
# This will replace all digits and punctuation with an empty string

translation = str.maketrans(
    dict(
        zip(
            (
                *digits,
                *( # punctuation
                    item
                    for item in set(text)
                    if unicodedata.category(item).startswith("P")
                ),
            ),
            it.cycle(("",)),
        )
    )
)

print(" ".join(text.translate(translation).split()))

输出：

Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

您可以选择任何字符进行替换。我选择了一个空字符串"" 进行删除。

【讨论】：

关闭，但我还想从文本中删除—。
我也注意到了这一点。我要看看是否有某些版本的punctuation 包含额外的标点符号。
我发现了一种可能用于识别 unicode 标点符号的 hack。我在这里找到它：groups.google.com/forum/#!topic/comp.lang.python/5tnXt-o534Y 查看编辑。我为所有 unicode 标点符号添加了翻译。