【发布时间】:2020-01-29 21:49:48
【问题描述】:
我一直在使用 R 处理 PDF,并且数据以多种格式呈现。我想将数据转换为最终数据框;现在是chr 格式。将其放入数据框中的最简单方法是在空白处拆分然后上传。所有数据如下所示;长字符串中的 611 项。
2019-02-05 1-02/05/2019-123456-A Thorton, Billy Bob W123455834 XXX-XX-1776 ALEXANDER HAMILTON
2019-02-08 1-02/08/2019-876543-B Dern, Laura P98765432 XXX-XX-1789 BETSY ROSS
上述格式的数据存在一些问题:
- Billy Bob 之间的空间将导致在 数据;我们只有一个名称字段。加入这些后,我们可以轻松删除逗号。
- 拆分之间存在不同程度的空白。
- 其他代码是字母数字。
在这篇文章中,我将向您展示一些正则表达式代码和提示,例如分组、更改大小写以及使用 Perl 扩展模式回顾特定组:
- 用比利鲍勃创造一个名字
- 仅将名称转换为小写,以便以后处理。如果我们想要全部小写,那么只需使用
tolower()函数。
解决方案基于这篇文章,我正在扩展它以使其更通用: gsub error turning upper to lower case in R
【问题讨论】:
-
看着这个我怀疑分隔符是制表符。尝试阅读
sep="\t" -
不是,数量不同,我马上就试了。
-
另一个想法是使用 pdftools-pkg:
Package: pdftools\n Type: Package\n Title: Text Extraction, Rendering and Converting of PDF Documents\n Version: 2.3