【问题标题】:Removing all non-letter chars from a string with accents in Python在 Python 中从带有重音符号的字符串中删除所有非字母字符
【发布时间】:2021-09-02 13:30:14
【问题描述】:

我正在尝试使用 Python 3.7 从包含重音符号的字符串中删除所有非字母字符(空格除外)。我尝试了以下方法:

import re

text = "Андре́й Серге́евич Арша́вин (род. 29 мая 1981[4], Ленинград) — российский футболист, бывший капитан сборной России, заслуженный мастер спорта России (2008)."
clean_text = re.sub('[\W_\d]+', ' ', text)
print(clean_text)

输出是

Андре й Серге евич Арша вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России 

为什么我的结果字符串中的重音字符后面有一个空格?这似乎违反了最小意外原则。所以我尝试了不同的解决方案

text = "Андре́й Серге́евич Арша́вин (род. 29 мая 1981[4], Ленинград) — российский футболист, бывший капитан сборной России, заслуженный мастер спорта России (2008)."
clean_text2 = "".join(c for c in text if c.isalpha() or c == " ")
print(clean_text2)

输出是

Андрей Сергеевич Аршавин род  мая  Ленинград  российский футболист бывший капитан сборной России заслуженный мастер спорта России 

这几乎是我想要的,除了它从字符中删除了重音。我想得到以下结果:

Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

有没有办法从字符串中删除所有非字母字符,但保留字符上的重音符号?

【问题讨论】:

  • "为什么我的结果字符串中的重音字符后面有一个空格?" - 因为重音是一个单独的字符:text[5] == '́',因为俄语没有重音,不像法语,例如。
  • 试试:re.sub(r'[^\pLе́]+', ' ', text)

标签: python regex string unicode


【解决方案1】:

俄语单词重音符号的基本解决方案

俄语字母没有重音,字符串中的重音表示单词重音,并且只用于特定的书面演讲,如外国人教科书、儿童书籍等。

е́e 字母和 \u0301 字符,0301 COMBINING ACUTE ACCENT。可以从您的模式中减去唯一的重音变音符号以获得您想要的结果:

clean_text = re.sub(r'(?:(?!\u0301)[\W\d_])+', ' ', text)

查看Python demo 产量

Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

请参阅regex demo online

支持所有变音符号的解决方案 - PyPi 正则表达式模块

要保留所有变音符号,最简单的方法是安装PyPi regex module(带有pip install regex),然后使用\p{L}\p{M} Unicode 属性类:

import regex

text = "Андре́й Серге́евич Арша́вин (род. 29 мая 1981[4], Ленинград) — российский футболист, бывший капитан сборной России, заслуженный мастер спорта России (2008)."
print ( regex.sub(r'[^\p{L}\p{M}]+', ' ', text) )
# => Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России
print( " ".join(regex.findall(r'(?>\p{L}\p{M}*+)+', text)) ) 
# => Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

这里,\[^\p{L}\p{M}\]+ regex 匹配除 Unicode 字母 (\p{L}) 和变音符号 (\p{M}) 之外的任何 1 个或多个字符。另一个解决方案,(?>\p{L}\p{M}*+)+re.findall,从文本中提取所有字母 + 变音符号块,然后 " ".join(...) 用空格连接它们。

变音符号支持 Python re

您将需要“拼出”\p{M} 类,并且可以使用 [^\W\d_] 构造匹配任何 Unicode 字母。在这里使用 find-all-words-and-then-concatenate 方法而不是 re.sub 是有意义的:

import re
combining_marks_bmp = '\u0300-\u036F\u0483-\u0489\u0591-\u05BD\u05BF\u05C1\u05C2\u05C4\u05C5\u05C7\u0610-\u061A\u064B-\u065F\u0670\u06D6-\u06DC\u06DF-\u06E4\u06E7\u06E8\u06EA-\u06ED\u0711\u0730-\u074A\u07A6-\u07B0\u07EB-\u07F3\u0816-\u0819\u081B-\u0823\u0825-\u0827\u0829-\u082D\u0859-\u085B\u08E3-\u0903\u093A-\u093C\u093E-\u094F\u0951-\u0957\u0962\u0963\u0981-\u0983\u09BC\u09BE-\u09C4\u09C7\u09C8\u09CB-\u09CD\u09D7\u09E2\u09E3\u0A01-\u0A03\u0A3C\u0A3E-\u0A42\u0A47\u0A48\u0A4B-\u0A4D\u0A51\u0A70\u0A71\u0A75\u0A81-\u0A83\u0ABC\u0ABE-\u0AC5\u0AC7-\u0AC9\u0ACB-\u0ACD\u0AE2\u0AE3\u0B01-\u0B03\u0B3C\u0B3E-\u0B44\u0B47\u0B48\u0B4B-\u0B4D\u0B56\u0B57\u0B62\u0B63\u0B82\u0BBE-\u0BC2\u0BC6-\u0BC8\u0BCA-\u0BCD\u0BD7\u0C00-\u0C03\u0C3E-\u0C44\u0C46-\u0C48\u0C4A-\u0C4D\u0C55\u0C56\u0C62\u0C63\u0C81-\u0C83\u0CBC\u0CBE-\u0CC4\u0CC6-\u0CC8\u0CCA-\u0CCD\u0CD5\u0CD6\u0CE2\u0CE3\u0D01-\u0D03\u0D3E-\u0D44\u0D46-\u0D48\u0D4A-\u0D4D\u0D57\u0D62\u0D63\u0D82\u0D83\u0DCA\u0DCF-\u0DD4\u0DD6\u0DD8-\u0DDF\u0DF2\u0DF3\u0E31\u0E34-\u0E3A\u0E47-\u0E4E\u0EB1\u0EB4-\u0EB9\u0EBB\u0EBC\u0EC8-\u0ECD\u0F18\u0F19\u0F35\u0F37\u0F39\u0F3E\u0F3F\u0F71-\u0F84\u0F86\u0F87\u0F8D-\u0F97\u0F99-\u0FBC\u0FC6\u102B-\u103E\u1056-\u1059\u105E-\u1060\u1062-\u1064\u1067-\u106D\u1071-\u1074\u1082-\u108D\u108F\u109A-\u109D\u135D-\u135F\u1712-\u1714\u1732-\u1734\u1752\u1753\u1772\u1773\u17B4-\u17D3\u17DD\u180B-\u180D\u18A9\u1920-\u192B\u1930-\u193B\u1A17-\u1A1B\u1A55-\u1A5E\u1A60-\u1A7C\u1A7F\u1AB0-\u1ABE\u1B00-\u1B04\u1B34-\u1B44\u1B6B-\u1B73\u1B80-\u1B82\u1BA1-\u1BAD\u1BE6-\u1BF3\u1C24-\u1C37\u1CD0-\u1CD2\u1CD4-\u1CE8\u1CED\u1CF2-\u1CF4\u1CF8\u1CF9\u1DC0-\u1DF5\u1DFC-\u1DFF\u20D0-\u20F0\u2CEF-\u2CF1\u2D7F\u2DE0-\u2DFF\u302A-\u302F\u3099\u309A\uA66F-\uA672\uA674-\uA67D\uA69E\uA69F\uA6F0\uA6F1\uA802\uA806\uA80B\uA823-\uA827\uA880\uA881\uA8B4-\uA8C4\uA8E0-\uA8F1\uA926-\uA92D\uA947-\uA953\uA980-\uA983\uA9B3-\uA9C0\uA9E5\uAA29-\uAA36\uAA43\uAA4C\uAA4D\uAA7B-\uAA7D\uAAB0\uAAB2-\uAAB4\uAAB7\uAAB8\uAABE\uAABF\uAAC1\uAAEB-\uAAEF\uAAF5\uAAF6\uABE3-\uABEA\uABEC\uABED\uFB1E\uFE00-\uFE0F\uFE20-\uFE2F'
combining_marks_astral = '\uD805[\uDCB0-\uDCC3\uDDAF-\uDDB5\uDDB8-\uDDC0\uDDDC\uDDDD\uDE30-\uDE40\uDEAB-\uDEB7\uDF1D-\uDF2B]|\uD834[\uDD65-\uDD69\uDD6D-\uDD72\uDD7B-\uDD82\uDD85-\uDD8B\uDDAA-\uDDAD\uDE42-\uDE44]|\uD804[\uDC00-\uDC02\uDC38-\uDC46\uDC7F-\uDC82\uDCB0-\uDCBA\uDD00-\uDD02\uDD27-\uDD34\uDD73\uDD80-\uDD82\uDDB3-\uDDC0\uDDCA-\uDDCC\uDE2C-\uDE37\uDEDF-\uDEEA\uDF00-\uDF03\uDF3C\uDF3E-\uDF44\uDF47\uDF48\uDF4B-\uDF4D\uDF57\uDF62\uDF63\uDF66-\uDF6C\uDF70-\uDF74]|\uD81B[\uDF51-\uDF7E\uDF8F-\uDF92]|\uD81A[\uDEF0-\uDEF4\uDF30-\uDF36]|\uD82F[\uDC9D\uDC9E]|\uD800[\uDDFD\uDEE0\uDF76-\uDF7A]|\uD836[\uDE00-\uDE36\uDE3B-\uDE6C\uDE75\uDE84\uDE9B-\uDE9F\uDEA1-\uDEAF]|\uD802[\uDE01-\uDE03\uDE05\uDE06\uDE0C-\uDE0F\uDE38-\uDE3A\uDE3F\uDEE5\uDEE6]|\uD83A[\uDCD0-\uDCD6]|\uDB40[\uDD00-\uDDEF]'
letter = r'[^\W\d_]'
pat = re.compile(r'(?:{}|[{}]|{})+'.format(letter,combining_marks_bmp, combining_marks_astral))
print(" ".join(pat.findall(text)))
# => Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

online Python demo

【讨论】:

  • 我觉得 OP 会从检查 "Combining Diacritical Marks" Block 中受益,其中包含重音符号 \u0301,并评估是否可能需要其他重音字符。
  • @r.ook 关于可能需要其他重音字符:俄语中没有重音符号。这里使用的重音符号是写作中很少出现的单词重音,它们不是用来改变词义的,只是显示你应该在哪里发音一个元音,力度更大。它们通常根本不使用,因为我们知道在哪里强调单词。这里不需要\p{M},这将是多余的开销。除非用户需要处理使用变音符号作为含义变化符号的其他语言。
  • 确实,我的例子(来自外国人学习俄语的教科书)只有几个重音符号来显示单词重音。但是,我也对一个通用解决方案感兴趣,它可以在任何类型的文本中保留所有“组合变音符号”。
  • @asmaier 你认为 PyPi 正则表达式模块解决方案够用吗?还是您也想要re 解决方案?
  • @asmaier 添加了另一个,用于re
【解决方案2】:

试试(?:[^\w\x{301}\s]|[\d_])+
如果使用该符号,则使用 \u0301 而不是 \x{301}

如果支持,也可以使用属性

[^\p{L}\x{0301}\s]+

【讨论】:

    【解决方案3】:

    我想提供一个不涉及正则表达式的 Pythonic 解决方案。

    它对字符串使用translate 方法。

    1.Python documenation on str.maketrans

    2.Python documentation on str.translate

    from string import digits
    import itertools as it
    import unicodedata
    
    # This creates a special dictionary to pass to the translation method.
    # This will replace all digits and punctuation with an empty string
    
    translation = str.maketrans(
        dict(
            zip(
                (
                    *digits,
                    *( # punctuation
                        item
                        for item in set(text)
                        if unicodedata.category(item).startswith("P")
                    ),
                ),
                it.cycle(("",)),
            )
        )
    )
    
    print(" ".join(text.translate(translation).split()))
    

    输出:

    Андре́й Серге́евич Арша́вин род мая Ленинград российский футболист бывший капитан сборной России заслуженный мастер спорта России

    您可以选择任何字符进行替换。我选择了一个空字符串"" 进行删除。

    【讨论】:

    • 关闭,但我还想从文本中删除
    • 我也注意到了这一点。我要看看是否有某些版本的punctuation 包含额外的标点符号。
    • 我发现了一种可能用于识别 unicode 标点符号的 hack。我在这里找到它:groups.google.com/forum/#!topic/comp.lang.python/5tnXt-o534Y 查看编辑。我为所有 unicode 标点符号添加了翻译。
    猜你喜欢
    • 2014-04-26
    • 1970-01-01
    • 2014-06-01
    • 2015-02-26
    • 1970-01-01
    • 2013-04-30
    • 2022-01-09
    • 1970-01-01
    相关资源
    最近更新 更多