【发布时间】:2019-03-30 07:39:34
【问题描述】:
我正在处理作为放射学报告的文本文件。如果文档有两页,则在所有页面的顶部重复出现包含患者姓名和其他元数据的文本块,页面的其余部分包含报告的内容。我已将页面合并为一个文本对象。保留第一个块我想删除所有其他重复块。有没有办法以编程方式从所有此类文件中删除这些块? 重复的块看起来像这样:
Patient ID xxx Patient Name xxx
Gender Female Age 43Y 8M
Procedure Name CT Scan - Brain (Repeat) Performed Date 14-03-2018
Study DateTime 14-03-2018 07:10 am Study Description BRAIN REPEAT
Study Type CT Referring Physician xxx
【问题讨论】:
-
如果你知道每个块是如何开始和结束的,那么是的,因为有一个模式
-
感谢 SPYBUG96。是的,我愿意。我以添加的块模式为例编辑了问题。我想用 python 处理一批文件。
-
基于多行的解决方案:stackoverflow.com/a/68614409/191246