【发布时间】:2019-08-27 14:16:59
【问题描述】:
我从 pdf 文件中提取了一些文本,我正在寻找一些关键字来匹配职位,我尝试使用许多正则表达式来仅获取不以日期开头的行(任何日期格式)但我必须获取以任何其他数字或单词开头的其他行。
我希望在这里找到一个聪明的想法。 最好的
我已经尝试了这两个正则表达式来找到 ingenieur 关键字但没有任何成功:
((?m)^(?![0-9])\\s*\\b"+ sTofind +"\\b)
还有这个:
((?m)[^(?!(0-9))][\\s{2,4}]\\b"+ sTofind +"\\b.*)
我使用的文本测试是这个(> 字符不是文本的一部分):
etudiant -: ingenieur etudes et developpement
http://www.doyoubuzz.com/profilen
experiences
ingenieur
2018-2014 ingenieur
331 ingenieur
29 rue de la terrasse Ingenieur Centrale Lyon / Supélec
93160 NOISY LE GRAND ingenieur
09 66 11 10 93 Expertise en instrumentation industrielle,
06 44 25 90 09 automatisation ingenieur & marketing opérationnel
email.email@wanadoo.fr Bilingue anglais ingenieur
我希望找到突出显示的文本:
etudiant -: <i>ingenieur etudes et developpement</i>
http://www.doyoubuzz.com/profilen
<i>experiences</i>
<i>ingenieur</i>
2018-2014 ingenieur
331 <i>ingenieur</i>
29 rue de la terrasse <i>Ingenieur Centrale Lyon / Supélec </i>
93160 NOISY LE GRAND <i>ingenieur</i>
09 66 11 10 93 Expertise en instrumentation industrielle,
06 44 25 90 09 automatisation <i>ingenieur & marketing opérationnel </i>
email.email@wanadoo.fr Bilingue anglais <i>ingenieur</i>
【问题讨论】:
-
你是这个意思吗?
(?mi)^((?!>[0-9]+-[0-9]+).*?)(\bingenieur\b.*)regex101.com/r/CKAbT1/1
标签: java regex regex-negation regex-lookarounds