【问题标题】:how to deal with compound words in regex如何处理正则表达式中的复合词
【发布时间】:2020-04-16 08:52:48
【问题描述】:

我正在制作从文本中返回缩写定义的正则表达式。我已经解决了许多情况,但我无法解决缩写与实际单词的字符数不同的情况,这可能是因为一个单词如下所示。

string = 'CRC comes from the words colorectal cancer'

我想根据其简写形式获得“结肠直肠癌”。你对我应该采取什么步骤有什么建议吗?我想过拆分复合词,但会导致其他问题。

【问题讨论】:

    标签: python regex python-3.x string text


    【解决方案1】:

    在 CRC 中,第一个单词应该以 C 开头,下一个单词可以是 R 或 C,如果第二个单词是 R,第三个单词应该是 C 或者根本没有第三个单词。 同时你应该检查第二个单词以 C 开头。如果是这样,你不需要检查第三个单词。正则表达式中的 OR 条件可能会有所帮助。如果我没有足够的数据样本,我无法确定如何进行

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-04-29
      • 2016-02-13
      • 2018-04-05
      • 2015-12-13
      • 1970-01-01
      • 2017-04-19
      • 2021-05-23
      • 1970-01-01
      相关资源
      最近更新 更多