【问题标题】:Regex to get string with only one dash正则表达式仅用一个破折号获取字符串
【发布时间】:2016-12-15 18:51:06
【问题描述】:

抱歉问题标题不好,我想不出更好的问题。

我需要一个正则表达式,用于提取电视节目脚本的季节、剧集和标题。在我的文件中,它们可能如下所示:

<span class="topic">01x02 - The Big Bran Hypothesis</span><b
<td><b>01x07 - The Dumpling Paradox</b></td>
<title>Transcripts - Forever Dreaming :: 01x07 - The Dumpling Paradox - The Big Bang Theory</title>
<title>Transcripts - Forever Dreaming :: 06x04 - The Re-Entry Minimisation - The Big Bang Theory</title>

我试过了:

([\d]+x[\d]+)\s?[-]?\s?([\w\s]*)

Regex101 Example here

此正则表达式匹配:

01x02 - The Big Bran Hypothesis
01x07 - The Dumpling Paradox
01x07 - The Dumpling Paradox
06x04 - The Re

我面临的问题是,如何在没有" - The Big Bang Theory" 的情况下获得最后一个标题的其余部分(“The Re-Entry Minimisation”)。

我尝试在第二个捕获组中添加-,但这也包括标题后面的部分。

我还尝试为- 添加一个积极的前瞻,但这也行不通,因为它也匹配了季后的第一个-

我想如何做到这一点很简单,但我无法弄清楚。任何人的想法?谢谢!

【问题讨论】:

  • 这也与“ - 生活大爆炸”部分相匹配。第四场比赛例如应该是“06x04 - The Re-Entry Minimisation”,而不是“06x04 - The Re-Entry Minimization - The Big Bang Theory”
  • 正则表达式应该应用于纯文本。是的,你可能会使用(\d+x\d+)\s?-?\s?([^-&lt;]*(?:\b-\b[^-&lt;]*)*),但它真的很难看。
  • 我想出了([\d]+x[\d]+)\s?[-]?((\s?\w+-?)+) - 似乎适用于该示例,但我敢打赌它不适用于所有其他用例。对这个不满意。

标签: regex


【解决方案1】:

此正则表达式将成功匹配带连字符的标题,同时避免尾随显示名称: (\d+)x(\d+) ?- ?([-\w\s]+) -

它将产生以下捕获组:

  1. 季节
  2. 剧集
  3. 标题

细分:

  • (\d+)x(\d+) 匹配并捕捉季节和剧集,每个都在自己的组中
  • ?- ? 匹配破折号分隔符,带或不带空格
  • ([-\w\s]+) - 捕获任何字母、破折号和空格,但最多只能是一个带有空格的破折号,这似乎是标题中和标题后的唯一区别。

参见regex101 演示。

注意:如果您确实需要整个匹配来排除节目名称,而不是使用特定组,只需将- 更改为正向前瞻(?= - ),这样它就不会匹配尾随破折号。

【讨论】:

    【解决方案2】:

    这应该可行:

    (\d{2}x\d{2} - [\w\s]*(-\w)?[\w\s]*)
    

    它还会返回第二组,但您可以直接忽略它。或者,实际上,您可以简单地使用完全匹配

    \d{2}x\d{2} - [\w\s]*(-\w)?[\w\s]*
    

    ----- 编辑-----

    正确地说,诀窍是考虑到单词可能会被连字符而忽略实际的连字符。

    以下正则表达式更通用,匹配“开箱即用”之类的内容:

    \d{2}x\d{2} - ([\w\s]*(-\w)?)*
    

    【讨论】:

      猜你喜欢
      • 2017-04-30
      • 1970-01-01
      • 1970-01-01
      • 2020-03-17
      • 1970-01-01
      • 1970-01-01
      • 2013-05-01
      • 2012-08-23
      • 1970-01-01
      相关资源
      最近更新 更多