【问题标题】:REGEX to get whole paragraph from string extracted from PDF正则表达式从 PDF 中提取的字符串中获取整个段落
【发布时间】:2019-01-30 20:34:51
【问题描述】:

我是正则表达式的新手。
我有一个 PHP 代码,可以从 PDF 文件中提取所有文本并存储在字符串变量中。
我需要获取第 2 页上的特定段落。我正在尝试使用正则表达式来获取文本直到句点,但问题是这一段中有很多句点,而正则表达式只匹配第一句。

这是我需要得到的 PDF 部分的样子:

我需要获取所有在右侧对齐的段落。所有这些都以“AGRAVO DE EXCECUÇÃO PENAL”这句话开头。但结局因人而异。

这是字符串变量值的样子(我需要的部分是粗体):

“PODER JUDICIÁRIO
圣保罗州司法法庭
13ª CâMARA DE DIREITO CRIMINAL
AGRAVO DE EXECUçãO PENAL Nº 000000000000 - VOTO Nº 0000 2
VOTO Nº 00000
AGRAVO DE EXECUçãO PENAL Nº 0000000000000000000
AGRAVANTE: MINISTéRIO PúBLICO DO ESTADO DE SãO PAULO
AGRAVADA:名称
AGRAVO DE EXECUÇãO Penal EXECUçãO CRIMINAL PLEITO DE MANUTENçãO DO CARáTER HEDIONDO DO CRIME DE TRáFICO PRIVILEGIADO,FIM DE MODIFICAR OS CáLCULOS NOVO ENTENDIMENTO DO C. STF EXTERNDO NO JULGAMENTO DO HC Nº 118.533/MS, NO SENTIDO DE AFASTAR A NATUREZA HEDIONDA DO TRáFICO PRIVILEGIADO DE DROGAS DECISãO DO JUíZO EM CONSONâNCIA COM O ENTENDIMENTO ESPECíFICO DO PLENáRIO DO C. STF, QUE Há DE PREVALECER AGRAVO NãO PROVIDO。
CUIDA-SE DE AGRAVO DE EXECUçãO Penal INTERPOSTO PELO M IN IS TÉR IO P Ú BLIC O D O E ST A D E S Ú O P A ULO CONTRA DECISãO PROFERIDA PELO JUíZO DO DEECRIM DA 6ª RAJ (COMARCA DE RIBEIRãO PRETO), QUE INDEFERIU PEDIDO DE RETIFICAçã"

【问题讨论】:

  • 您可以发布您的 pdf 数据的文本版本吗?
  • @PushpeshKumarRajwanshi 好的,刚刚进行了编辑

标签: php regex paragraph


【解决方案1】:

此正则表达式似乎适用于您的内容,

[A-Z]+.*\.\s*\n

基本上以大写开始匹配并捕获任何内容,包括文本中间的任何句点并在最后一个点.停止

Demo

让我知道这是否适合你。

【讨论】:

  • 它适用于示例文本,但对于其他文本,它似乎也匹配文本的其他部分。看看demo
  • @henriqueromao:它会匹配类似的行,但如果你想进一步限制,那么你必须在正则表达式中应用一些东西,将它与其他内容区分开来。为了避免匹配其他人,您可以在正则表达式末尾添加 \n 以使其仅在点后跟换行符时匹配。
  • 现在它适用于所有文本。谢谢,我宁愿接受你的回答!
  • 很高兴它对你有用。如果您发现它在任何情况下都卡住了,请给我回信。
  • 好的!再次感谢!
【解决方案2】:

由于句子一直到行尾,您可以使用多行匹配(m 修饰符)让^$ 匹配每行的开头和结尾。那么这个简单的正则表达式应该可以工作:

/^AGRAVO DE EXECUÇÃO PENAL.*$/m

例如

preg_match('/^AGRAVO DE EXECUÇÃO PENAL.*$/m', $string, $matches);
echo $matches[0];

输出:

AGRAVO DE EXECUÇÃO PENAL EXECUçãO CRIMINAL PLEITO DE MANUTENçãO DO CARáTER HEDIONDO DO CRIME DE TRáFICO PRIVILEGIADO, A FIM DE MODIFICAR OS CáLCULOS NOVO ENTENDIMENTO DO C. STF EXTERNADO NO JULGAMENTO DO HC Nº 118.533/MS, NO SENTIDO DE AFASTAR A NATUREZA HEDIONDA DO TRáFICO PRIVILEGIADO DE DROGAS DECISãO DO JUíZO EM CONSONâNCIA COM O ENTENDIMENTO ESPECíFICO DO PLENáRIO DO C. STF, QUE Há DE PREVALECER AGRAVO NãO PROVIDO.

Demo on 3v4l.org

【讨论】:

    猜你喜欢
    • 2014-08-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-08-25
    • 1970-01-01
    • 2018-02-23
    • 2011-04-06
    • 1970-01-01
    相关资源
    最近更新 更多