如何将一列字符串分成多列，每列包含一个字符串的单个字符，字符串长度不等且没有分隔符？答案

【问题标题】：How to separate a column of strings into multiple columns, each containing a single char of a string, with strings of unequal length and no separator?如何将一列字符串分成多列，每列包含一个字符串的单个字符，字符串长度不等且没有分隔符？
【发布时间】：2020-01-15 18:59:32
【问题描述】：

我的数据框是这样的：

data.frame(stringsAsFactors=FALSE,
       A = c("1234", "abc.", "e-2.1ad"),
       B = c("5-4", "1-0", "a,d")
)

我想将这些列分成包含单个字符的多个列。

我发现的其他答案都涉及使用一些正则表达式或模式或分隔符，如您所见，我在这里做不到，或者使用 sapply 的复杂解决方案（使用了位置，但对我来说没用）。我确信那里有一个更优雅的解决方案，如果可能的话，我真的很喜欢使用 tidyr 的解决方案，但无论它干净利落，都非常感谢。

这才是它该有的样子，毕竟说了算：

 newdf <- data.frame(stringsAsFactors=FALSE,
      A1 = c("1", "a", "e"),
      A2 = c("2", "b", "-"),
      A3 = c("3", "c", "2"),
      A4 = c("4", ".", "."),
      A5 = c(NA, NA, 1),
      A6 = c(NA, NA, "a"),
      A7 = c(NA, NA, "d"),
      B1 = c("5", "1", "a"),
      B2 = c("-", "-", ","),
      B3 = c("4", "0", "d")
)

而且，如果答案不仅仅是抛出一个或两个函数，如果您能解释一下您是如何进行的，而不仅仅是解决方案本身，我将不胜感激。谢谢！

稍后编辑：我几乎可以使用qdap 包来完成它，但我可以绕过它用字符串开头的字符填充应该是 NA（因为字符串的长度不等）。文档中没有解释的非常奇怪的行为，否则是一个非常有前途的功能。

我在尝试解决这个问题时注意到的另一个奇怪行为是自动从字符转换为因子。但是，我无法确定沿途发生的位置。

【问题讨论】：

“5-432”中的 32 会发生什么？
@Elin！感谢您的关注。这是我这边的一个错误。为了简单起见，我现在删除了额外的“32”。本来，这应该意味着 B 需要其他 3 列，B4 和 B5，第一行有 3 和 2，其他行有 NA。

标签： r string tidyverse data-cleaning data-munging

【解决方案1】：

有许多潜在的选择，具体取决于您感兴趣的详细信息。请参阅上面@Elin 关于在 5-432 中缺少 32 的评论。

可以考虑的一种可能性是str_split_fixed 来自stringr 包：

str_split_fixed("1234", "", 7)

     [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] "1"  "2"  "3"  "4"  ""   ""   ""

空模式 "" 将按字符拆分，在这种情况下，尝试返回 7 个字符矩阵（最后 3 个空字符串）。现在，如果没有可用的字符，它会返回一个空字符串，而不是 NA。（见github issue）。

如果列数基于列 A 和 B 可能的最大字符数（例如 7 和 5），则可以执行以下操作：

as.data.frame(lapply(df, function(x) str_split_fixed(x, "", n=max(nchar(x)))))

  A.1 A.2 A.3 A.4 A.5 A.6 A.7 B.1 B.2 B.3 B.4 B.5
1   1   2   3   4               5   -   4   3   2
2   a   b   c   .               1   -   0        
3   e   -   2   .   1   a   d   a   ,   d

注意：之后用 NA 替换空字符串：

df[df==""] <- NA

  A.1 A.2 A.3 A.4  A.5  A.6  A.7 B.1 B.2 B.3  B.4  B.5
1   1   2   3   4 <NA> <NA> <NA>   5   -   4    3    2
2   a   b   c   . <NA> <NA> <NA>   1   -   0 <NA> <NA>
3   e   -   2   .    1    a    d   a   ,   d <NA> <NA>

【讨论】：

谢谢。我选择你的作为答案，因为它似乎是最干净、最短的方法。

【解决方案2】：

这是我的tidyverse 解决方案。编写函数对我来说是新的，任何改进的建议都将不胜感激。

library(tidyverse)
df <- data.frame(stringsAsFactors=FALSE,
        A = c("1234", "abc.", "e-2.1ad"),
        B = c("5-432", "1-0", "a,d"))    

a_split<- str_split(df$A, "")
b_split<- str_split(df$B, "")
f1 <- function(num, s)(c(s[[1]][num], s[[2]][num], s[[3]][num]))
x <- c(1:7)
all_a <- lapply(x, f1, a_split)
x <- c(1:5)
all_b <- lapply(x, f1, b_split)

【讨论】：

感谢您的回答。考虑到您的写作功能的轻松和专注，您肯定对 R 很有天赋。感谢您为帮助我解决这个问题所做的努力！

【解决方案3】：

我们可以使用 splitstackshape 中的 cSplit 并将 A 和 B 列中的每个字符拆分为单独的列

df1 <- splitstackshape::cSplit(df, c('A', 'B'), sep = '', stripWhite = FALSE)
df1

#   A_1 A_2 A_3 A_4 A_5  A_6  A_7 B_1 B_2 B_3 B_4 B_5 B_6 B_7
#1:   1   2   3   4  NA <NA> <NA>   5   -   4   3   2  NA  NA
#2:   a   b   c   .  NA <NA> <NA>   1   -   0  NA  NA  NA  NA
#3:   e   -   2   .   1    a    d   a   ,   d  NA  NA  NA  NA

但是，这给了我一些额外的列，NA 用于 B，可以使用 Filter 删除

Filter(function(x) any(!is.na(x)), df1)
#   A_1 A_2 A_3 A_4 A_5  A_6  A_7 B_1 B_2 B_3 B_4 B_5
#1:   1   2   3   4  NA <NA> <NA>   5   -   4   3   2
#2:   a   b   c   .  NA <NA> <NA>   1   -   0  NA  NA
#3:   e   -   2   .   1    a    d   a   ,   d  NA  NA

数据

df <- data.frame(stringsAsFactors=FALSE,
             A = c("1234", "abc.", "e-2.1ad"),
             B = c("5-432", "1-0", "a,d"))

【讨论】：

谢谢，您的解决方案与上面 Ben 的解决方案几乎相同。它有很大帮助，但我只能指出一个答案。老实说，我没有合理的理由选择本而不是你的，除了它是页面上的第一个而且你已经拥有很高的地位（投票和所有）......因为无法想出更好的理由，我'很抱歉，但我希望你能接受我的感谢！
PS：您也注意到了 col B 中的问题，但正确地解释了它并仍然给出了解决方案……这说明了您的很多专业知识。我在哪里可以请求对两个优雅的解决方案进行投票，而不是仅限于一个...... ;) 再次感谢您。
使用cSplit 是一个很好的答案。会投票。我从@Ronak 那里学到了很多东西。