【发布时间】:2020-01-13 21:48:02
【问题描述】:
我正在尝试在字符串名称和换行符之间提取文本。数据是从 .pdf 进行 OCR 处理并包含在 R 数据框中。
例如输出到 .csv 文件。
Contract 6001 Total Hours 300, 33,350.00
Contract 6002 Total Hours 500, 500,000.00
Contract 6003 Total Hours 25, 10,050.50
在 .csv 文件中查找时,由于 \n,数据位于新行中。 但是,在 R 中执行 str() 命令时,数据显示在一行中,并且在美元金额之后的末尾有一个“\n”。
我将如何使用正则表达式来提取所有行的 Contract 和换行符之间的所有内容?
期望的输出:
6001 Total Hours 300, 33,350.00
6002 Total Hours 500, 500,000.00
6003 Total Hours 25, 10,050.50
【问题讨论】:
-
不是您问题的确切答案,但您可能喜欢
unglue::unglue_data(x, "Contract {id} Total Hours {x}, {y}")