我应该包括什么模式，以便我的代码识别括号？答案

【问题标题】：what pattern should I include so that my code recognizes brackets?我应该包括什么模式，以便我的代码识别括号？
【发布时间】：2019-07-16 01:37:23
【问题描述】：

我有一个数据框，其中的列按“m.z、强度、相对、增量、RBD.equiv.和成分”的顺序排列，每一行都有根据特定分子填充的这些参数。在组合列中，它有诸如“C7 H11 O4”之类的内容根据分子式的元素数量。但是，当组合物中显示碳同位素时，“C11 [13]C H21 O N3 S2”代码失败并给我一个错误。我希望能够将 [13]C 作为自己的列，以便将其与其他分子区分开来。

我的 data.frame 如下所示，但还有数百个组合。 Dataframe 来自 csv 文件以供参考。我不确定在 gsub 中使用什么模式，以便将 [13]C 转换为具有相应行的列。

#This is how my data frame looks like but with more rows

#m.z  Intensity  Relative  Delta.  RBD.equiv  Composition 
#275  7555870    100       -0.49   0.0        C3 [13]C H4 O2
#136  126098     70.67     -2.72   5.5        C7 H11 O4 Na S

    data <- dataframe%>%mutate(Composition=gsub("\\b([A-Za-z]+)\\b","\\11",Composition),

    name=str_extract_all(Composition,"[A-Za-z]+"),

    value=str_extract_all(Composition,"\\d+"))%>%
    unnest()%>%spread(name,value,fill=0)

#I expect to see something like this when I print my results

#m.z Intensity Relative Delta. RBD.equiv Composition   C [13]C H O Na
#275 7555870   100      -0.49  0.0       C3 [13]C H4   3 1     4 0 0
#133 126098    70.67    -2.72  5.5       C7 H5 O4 Na   7 0     5 4 1

【问题讨论】：

这可能是一个棘手的问题，假设分子可以包含任何元素。是否存在固定数量的预期元素？
所以我通常尝试将其保持在一定数量之间，例如 C、H、O、N、Na、S、Si，但有时我会添加额外的元素。

标签： r gsub dplyr

【解决方案1】：

编辑：我设法修复了您代码中的常规表达式：

data <- dataframe %>% mutate(Composition = gsub("\\b([A-Za-z]+)\\b", "\\11", Composition),
                           name=str_extract_all(Composition, "(\\[[0-9]+\\])*[A-Za-z]+"), #allow numer in square bracket before element
                           value=str_extract_all(Composition, "(?<!\\[[0-9]{0,5})[0-9]+")) %>% #only numbers that are not in square brackets (I expect the number in square bracket has 5 digits max)
    unnest() %>% spread(name, value, fill = 0)

我的第一个解决方案是先从分子式中分离元素，然后对每个元素应用正则表达式：

（请注意，我在我的解决方案中使用 splitstackshape 包进行分离，因为我已经习惯了。如果您熟悉任何其他解决方案，您可以更改它）

data <-  dataframe %>% mutate(CompositionCopy = gsub("\\b([A-Za-z]+)\\b", "\\11", Composition)) %>% #your code
    splitstackshape::cSplit("CompositionCopy", " ", fixed = TRUE, direction = "long", type.convert = FALSE) %>% #split
    mutate(name = str_extract_all(CompositionCopy, ".*[A-Za-z]+"), #included .* into your regex
           value = str_extract_all(CompositionCopy, "\\d+$") %>% as.integer()) %>% #included $ in your regex to only get number at the end
    select(-CompositionCopy) %>% 
    spread(name, value, fill = 0L)

【讨论】：