【问题标题】:Remove first N lines on a character column in a data frame删除数据框中字符列的前 N ​​行
【发布时间】:2019-04-25 05:48:25
【问题描述】:

我有一个包含电子邮件的数据框。有一个名为“消息”的列,如下所示:

> > dataset$message[1]  
>[1] Message-ID:...
> 
> Date: ...
> 
> From: ...
> 
> To:...
> 
> Subject: ...
> 
> Mime-Version: ...
> 
> Content-Type:...
> 
> Content-Transfer-Encoding: ...
> 
> X-From:...
> 
> X-To: ...
> 
> X-cc:...
> 
> X-bcc: ...
> 
> X-Folder: ...
> 
> X-Origin: ...
> 
> X-FileName: ...
>  
> > Some message text

换句话说,每个条目包含 15 行标题,然后是文本。我想要的是从每一行中删除这 15 行,只留下文本,这样

>dataset$message[1]

看起来像这样:

> Some message text

【问题讨论】:

  • 请提供reproducible example 以及预期输出。也不要忘记发布您失败的尝试。干杯
  • 一旦数据进入 data.frame 就太晚了。您想在 将其读入 data.frame 之前将其删除,例如通过向read.table 提供适当的参数。

标签: r


【解决方案1】:

这样的事情会起作用:

sub("^(?:.*\\n){15}", "", multiline_string_mail, perl = TRUE)

#[1] "Super secret message"

示例数据:(您应该始终提供可用的示例数据)

multiline_string_mail =
"hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
hehe
Super secret message"

【讨论】:

  • 正则表达式中的?: 是什么?
  • 这适用于数据框的单个条目。我把它放在一个循环中并应用于每个条目。非常感谢,我将其标记为答案。
猜你喜欢
  • 2016-01-09
  • 2022-11-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-07-10
  • 1970-01-01
  • 2021-11-28
相关资源
最近更新 更多