将字符串子集到不均匀列表中并从列表中逻辑传播 data.frame答案

【问题标题】：Subsetting a string into an uneven list and logically propagating a data.frame from the list将字符串子集到不均匀列表中并从列表中逻辑传播 data.frame
【发布时间】：2015-09-10 01:50:23
【问题描述】：

我花了很多时间试图解决这个问题，但没有成功。

我有一个 data.frame，其中有一列包含可变长度的字符串。 data.frame 如下所示：

Taxa <- as.character(c("cellularorganisms(norank)_Bacteria(superkingdom)_Actinobacteria(phylum)","cellularorganisms(norank)_Bacteria(superkingdom)_Proteobacteria(phylum)_Gammaproteobacteria(class)_Enterobacteriales(order)_Enterobacteriaceae(family)","cellularorganisms(norank)_Bacteria(superkingdom)_Proteobacteria(phylum)_Gammaproteobacteria(class)_Enterobacteriales(order)","cellularorganisms(norank)_Bacteria(superkingdom)_Proteobacteria(phylum)_Gammaproteobacteria(class)_Enterobacteriales(order)_Enterobacteriaceae(family)_Klebsiella(genus)","cellularorganisms(norank)_Bacteria(superkingdom)_Proteobacteria(phylum)_Gammaproteobacteria(class)_Enterobacteriales(order)_Enterobacteriaceae(family)_Klebsiella(genus)_Klebsiellapneumoniae(species)","cellularorganisms(norank)_Bacteria(superkingdom)_Firmicutes(phylum)_Clostridia(class)_Clostridiales(order)","cellularorganisms(norank)_Bacteria(superkingdom)_Firmicutes(phylum)_Clostridia(class)","cellularorganisms(norank)_Bacteria(superkingdom)_Firmicutes(phylum)_Clostridia(class)_Clostridiales(order)_Clostridiaceae(family)","cellularorganisms(norank)_Bacteria(superkingdom)_Firmicutes(phylum)_Clostridia(class)_Clostridiales(order)_Clostridiaceae(family)_Clostridium(genus)","cellularorganisms(norank)_Bacteria(superkingdom)_Firmicutes(phylum)_Clostridia(class)_Clostridiales(order)_Clostridiaceae(family)_Clostridium(genus)_Clostridiumbotulinum(species)","cellularorganisms(norank)_Bacteria(superkingdom)_Firmicutes(phylum)_Clostridia(class)_Clostridiales(order)_Clostridiaceae(family)_Clostridium(genus)_Clostridiumbotulinum(species)_ClostridiumbotulinumCDC66177(strain)","cellularorganisms(norank)_Bacteria(superkingdom)_Actinobacteria(phylum)_Actinobacteria(class)_Actinobacteridae(subclass)_Actinomycetales(order)_Micrococcineae(suborder)","cellularorganisms(norank)_Bacteria(superkingdom)_Actinobacteria(phylum)_Actinobacteria(class)_Actinobacteridae(subclass)_Actinomycetales(order)_Micrococcineae(suborder)_Microbacteriaceae(family)","cellularorganisms(norank)_Bacteria(superkingdom)_Actinobacteria(phylum)_Actinobacteria(class)_Actinobacteridae(subclass)_Actinomycetales(order)_Micrococcineae(suborder)_Microbacteriaceae(family)_Microbacterium(genus)","cellularorganisms(norank)_Bacteria(superkingdom)_Actinobacteria(phylum)_Actinobacteria(class)_Actinobacteridae(subclass)_Actinomycetales(order)_Micrococcineae(suborder)_Microbacteriaceae(family)_Microbacterium(genus)_Microbacteriumlaevaniformans(species)_MicrobacteriumlaevaniformansOR221(strain)"))
Percent <- c("0.000400","0.006800","0.005034","0.001760","0.000000","0.000000","0.344400","0.000000","0.000000","0.000000","0.006500","0.002819","0.000487","0.000000","0.001090")
Test <- data.frame(Percent, Taxa)
Test$Taxa <- as.character(Test$Taxa)

我可以将这些带下划线的字符串子集到一个长度不等的列表中：

NewDF <- strsplit(Test$Taxa, "_", fixed=TRUE)

但我不知道如何获取这个解析后的输出并将其格式化为可用的结构。

每个解析的部分有两个组件，一个描述符和一个分类级别（即 Bacteria(superkingdom) 是描述符 Bacteria 和分类级别 superkingdom。

我想要做的是获取这个解析后的输出，并填充具有以下列标题（norank、superkingdom、phylum、class、order、family、genus、species、strain）的 data.frame。输出需要跳过上面列表中未包含的分类级别（例如，在类和顺序之间存在具有子类分类级别的行，我需要删除子类）。

此外，如果一行在特定分类级别停止并且仍有未填充的列，则应将它们设置为 NA（即第一行结束于 phylum，因此 class、order、family 等应为 NA）。

最终的输出应该是这样的：

                      norank           superkingdom                 phylum                      class                    order                     family                 genus                               species                                    strain
1  cellularorganisms(norank) Bacteria(superkingdom) Actinobacteria(phylum)                       <NA>                     <NA>                       <NA>                  <NA>                                  <NA>                                      <NA>
2  cellularorganisms(norank) Bacteria(superkingdom) Proteobacteria(phylum) Gammaproteobacteria(class) Enterobacteriales(order) Enterobacteriaceae(family)                  <NA>                                  <NA>                                      <NA>
3  cellularorganisms(norank) Bacteria(superkingdom) Proteobacteria(phylum) Gammaproteobacteria(class) Enterobacteriales(order)                       <NA>                  <NA>                                  <NA>                                      <NA>
4  cellularorganisms(norank) Bacteria(superkingdom) Proteobacteria(phylum) Gammaproteobacteria(class) Enterobacteriales(order) Enterobacteriaceae(family)     Klebsiella(genus)                                                                            <NA>
5  cellularorganisms(norank) Bacteria(superkingdom) Proteobacteria(phylum) Gammaproteobacteria(class) Enterobacteriales(order) Enterobacteriaceae(family)     Klebsiella(genus)         Klebsiellapneumoniae(species)                                      <NA>
6  cellularorganisms(norank) Bacteria(superkingdom)     Firmicutes(phylum)          Clostridia(class)     Clostridiales(order)                       <NA>                  <NA>                                  <NA>                                      <NA>
7  cellularorganisms(norank) Bacteria(superkingdom)     Firmicutes(phylum)          Clostridia(class)                     <NA>                       <NA>                  <NA>                                  <NA>                                      <NA>
8  cellularorganisms(norank) Bacteria(superkingdom)     Firmicutes(phylum)          Clostridia(class)     Clostridiales(order)     Clostridiaceae(family)                  <NA>                                  <NA>                                      <NA>
9  cellularorganisms(norank) Bacteria(superkingdom)     Firmicutes(phylum)          Clostridia(class)     Clostridiales(order)     Clostridiaceae(family)    Clostridium(genus)                                  <NA>                                      <NA>
10 cellularorganisms(norank) Bacteria(superkingdom)     Firmicutes(phylum)          Clostridia(class)     Clostridiales(order)     Clostridiaceae(family)    Clostridium(genus)         Clostridiumbotulinum(species)                                      <NA>
11 cellularorganisms(norank) Bacteria(superkingdom)     Firmicutes(phylum)          Clostridia(class)     Clostridiales(order)     Clostridiaceae(family)    Clostridium(genus)         Clostridiumbotulinum(species)      ClostridiumbotulinumCDC66177(strain)
12 cellularorganisms(norank) Bacteria(superkingdom) Actinobacteria(phylum)      Actinobacteria(class)   Actinomycetales(order)                       <NA>                  <NA>                                  <NA>                                      <NA>
13 cellularorganisms(norank) Bacteria(superkingdom) Actinobacteria(phylum)      Actinobacteria(class)   Actinomycetales(order)  Microbacteriaceae(family)                  <NA>                                  <NA>                                      <NA>
14 cellularorganisms(norank) Bacteria(superkingdom) Actinobacteria(phylum)      Actinobacteria(class)   Actinomycetales(order)  Microbacteriaceae(family) Microbacterium(genus)                                  <NA>                                      <NA>
15 cellularorganisms(norank) Bacteria(superkingdom) Actinobacteria(phylum)      Actinobacteria(class)   Actinomycetales(order)  Microbacteriaceae(family) Microbacterium(genus) Microbacteriumlaevaniformans(species) MicrobacteriumlaevaniformansOR221(strain)

【问题讨论】：

标签： r

【解决方案1】：

您可以尝试通过将一系列小 data.frames 编译到一个 df 中来实现

library(dplyr)

NewDF <- 
  lapply(strsplit(Test$Taxa, "_", fixed=TRUE),
         function(x)
         {
           vars <- lapply(x, function(y)
           {
             m <- regexec("\\((.+?)\\)",y)
             regmatches(y,m)[[1]][2]
           })
           vals <-  as.list( x )
           names(vals) <- unlist(vars)
           data.frame( vals, 
                       stringsAsFactors = FALSE )
         })  %>% rbind_all

这给了我你想要的结果（还有好看的变量名）

【讨论】：

变量为 9，您的解决方案最终得到一个包含 24 个变量的数据框。
是的，你是对的！修复了这个问题——似乎有 11 个变量（示例中没有列出一些变量：“subclass”和“suborder”）
你是对的。我想要的列列表是 9 长。我想删除子类和子顺序，因为它们不一致，并且对我的目的没有任何意义。很好的答案！
使用strsplit(Test$Taxa,"\$.+?\$(_|$)") 将避免对所有regmatches 提取内容的需要。
@akhmed - 公平点。发现得好。也许使用命名正则表达式捕获组的东西？不过现在可能已经超出了我的专业领域。