删除数据框中字符列的前 N 行答案

【问题标题】：Remove first N lines on a character column in a data frame删除数据框中字符列的前 N 行
【发布时间】：2019-04-25 05:48:25
【问题描述】：

我有一个包含电子邮件的数据框。有一个名为“消息”的列，如下所示：

> > dataset$message[1]  
>[1] Message-ID:...
> 
> Date: ...
> 
> From: ...
> 
> To:...
> 
> Subject: ...
> 
> Mime-Version: ...
> 
> Content-Type:...
> 
> Content-Transfer-Encoding: ...
> 
> X-From:...
> 
> X-To: ...
> 
> X-cc:...
> 
> X-bcc: ...
> 
> X-Folder: ...
> 
> X-Origin: ...
> 
> X-FileName: ...
>  
> > Some message text

换句话说，每个条目包含 15 行标题，然后是文本。我想要的是从每一行中删除这 15 行，只留下文本，这样

>dataset$message[1]

看起来像这样：

> Some message text

【问题讨论】：

请提供reproducible example 以及预期输出。也不要忘记发布您失败的尝试。干杯
一旦数据进入 data.frame 就太晚了。您想在将其读入 data.frame 之前将其删除，例如通过向read.table 提供适当的参数。

标签： r

【解决方案1】：

这样的事情会起作用：

sub("^(?:.*\\n){15}", "", multiline_string_mail, perl = TRUE)

#[1] "Super secret message"

示例数据：（您应该始终提供可用的示例数据）

multiline_string_mail =
"hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
Super secret message"

【讨论】：

正则表达式中的?: 是什么？
stackoverflow.com/questions/36524507/…
这适用于数据框的单个条目。我把它放在一个循环中并应用于每个条目。非常感谢，我将其标记为答案。