【发布时间】:2015-07-07 04:49:02
【问题描述】:
我正在尝试将具有以下结构的对话导入数据框:
conversation<-data.frame(
uniquerow=c("01/08/2015 2:49:49 pm: Person 1: Hello",
"01/08/2015 2:51:49 pm: Person 2: Nice to meet you",
"01/08/2015 2:59:19 pm: Person 1: Same here"))
这种结构可以相对容易地解析日期、时间、人员和消息。但是在某些情况下,消息带有换行符,因此数据帧结构错误,如下所示:
conversation_errors<-data.frame(
uniquerow=c("01/08/2015 2:49:49 pm: Person 1: Hello",
"01/08/2015 2:51:49 pm: Person 2: Nice to meet you",
"01/08/2015 2:59:19 pm: Person 1: Same here, let me tell you a haiku: ",
"lend me your arms,",
"fast as thunderbolts,",
"for a pillow on my journey."))
您将如何合并这些实例?有什么我不知道的包吗?
所需的功能将简单地识别缺失的结构并与前一行“合并”,这样我会得到:
conversation_fixed<-data.frame(
uniquerow=c("01/08/2015 2:49:49 pm: Person 1: Hello",
"01/08/2015 2:51:49 pm: Person 2: Nice to meet you",
"01/08/2015 2:59:19 pm: Person 1: Same here, let me tell you a haiku: lend me your arms, fast as thunderbolts, for a pillow on my journey."))
有什么想法吗?
【问题讨论】:
-
我的想法是,需要有一种确定性的方法将数据框
conversation_errors中的最后 3 行连接到第 1 个人。您能解释一下这是如何知道的吗? -
@TimBiegeleisen 基本上,缺少的结构......太脏了,无法提供更具体的内容,抱歉
-
您可能希望将
stringAsFactors = FALSE添加到您的 data.frame 分配中。 -
@vaettchen 抱歉,可重现的示例没有,但我的代码有。这不是问题...
标签: r string text dataframe string-concatenation