【发布时间】:2021-06-22 14:19:28
【问题描述】:
我有一个大文本文件作为几个图像文档的 OCR 输出,它在数字部分的中间包含空格,例如“70 000 vs 100 000 NaCl”或“8 个区域42 孔”。我想删除这些空格并将它们替换为原始形式:70000、100000 或 842。我还有另一种形式的信息,例如“wells 14 29a 3”,它是井 ID 的正确形式,我不想要它们改变或连接。有人可以帮我解决这个问题吗?
例如下面的句子:
'offset wells 14 29a 3, 14 286c 2 and 20 46 C and the value of 70 000 vs 100 000'
我想要这样的输出:
'offset wells 14 29a 3, 14 286c 2 and 20 46 C and the value of 70000 vs 100000'
【问题讨论】:
-
感谢您的链接。它删除了数字中的空格,但它也删除了这种模式的空间,因为它们是带空格的 id。比如“well 14 29a 3”会变成“well 1429a3”
标签: python regex string text data-cleaning