从来自 Stata 的 Haven 导入的“已标记”tibble 列中提取标签属性答案

【问题标题】：Extract the labels attribute from "labeled" tibble columns from a haven import from Stata从来自 Stata 的 Haven 导入的“已标记”tibble 列中提取标签属性
【发布时间】：2017-02-01 22:54:35
【问题描述】：

Hadley Wickham 的 haven 包应用于 Stata 文件，返回一个包含许多“已标记”类型的列的 tibble。你可以用 str() 看到这些，例如：

$ MSACMSZ    :Class 'labelled'  atomic [1:8491861] NA NA NA NA NA NA NA NA NA NA ...
  .. ..- attr(*, "label")= chr "metropolitan area size (cmsa/msa)"
  .. ..- attr(*, "labels")= Named int [1:7] 0 1 2 3 4 5 6
  .. .. ..- attr(*, "names")= chr [1:7] "not identified or nonmetropolitan" "100,000 - 249,999" "250,000 - 499,999" "500,000 - 999,999" ...

如果我可以简单地将所有这些标记的向量提取为因子会很好，但我已经将标签属性的长度与每个向量中唯一值的数量进行了比较，它有时更长，有时更短。所以我认为我需要查看所有这些并决定如何单独处理每一个。

所以我想将标签属性的值提取到一个列表中。但是，这个函数：

labels93 <- lapply(cps_00093.df, function(x){attr(X, which="labels", exact=TRUE)})

为所有变量返回 NULL。

这是 tibble 与数据框的问题吗？如何从 tibble 列中提取这些属性到列表中？

注意标签向量是命名的，我需要标签和名称。

根据@Hack-R 的请求，这里是我的数据的一个很小的 sn-p，它由 dput 转换（我以前从未使用过）。我应用了这段代码：

filter(cps_00093.df, YEAR==2015) %>%
  sample_n(10)  %>%
  select(HHTENURE, HHINTYPE) -> tiny
dput(tiny, file = "tiny")

生成文件很小。嘿！那很简单！我以为这么小的一块很难折断。

用 Notepad++ 打开 tiny，这是我发现的：

structure(list(HHTENURE = structure(c(2L, 1L, 1L, 2L, 1L, 1L, 
1L, 2L, 1L, 1L), labels = structure(c(0L, 1L, 2L, 3L, 6L, 7L), .Names = c("niu", 
"owned or being bought", "rented for cash", "occupied without payment of cash rent", 
"refused", "don't know")), class = "labelled"), HHINTYPE = structure(c(1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), labels = structure(1:3, .Names = c("interview", 
"type a non-interview", "type b/c non-interview")), class = "labelled")), row.names = c(NA, 
-10L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("HHTENURE", 
"HHINTYPE"))

我怀疑这可以通过一点间距使其更具可读性，但我不想搞砸它，因为担心会意外破坏相关信息。

【问题讨论】：

您能否dput() 提供封装问题的可重现示例所需的最少数据量？
见?haven::labelled;他们有自己的as_factor 方法。
感谢@alistaire 的提示！不幸的是，每列的数据部分中唯一值的数量和标签向量的相对长度都在地图上。对于大多数列来说，不仅是一对一的匹配，也不仅仅是几个缺失的代码。因此，在我更仔细地查看数据并弄清楚发生了什么之前，我还没有准备好相信一种万能的转换。
tiny %>% mutate_all(haven::as_factor) 在我看来还不错...
@alistaire 嗯，是的。但那是因为我使用了我可以快速定位的最简单的两个变量，在我的真实数据集中的约 460 个实际变量和 850 万个观察值中。不过，你可能是对的。我希望你是;我应该很快就知道了。并感谢代码 sn-p：如果我断定它会起作用，我会使用它。

标签： r data-structures attributes stata r-haven

【解决方案1】：

原始问题询问如何“将标签属性的值提取到列表中”。主要问题的解决方案如下（假设some_df 是通过haven 导入的并且具有label 属性）。更新：我现在添加了一种使用包sjlabelled 提取标签向量的方法。

library(purrr)
n <- ncol(some_df)
labels_list <- map(1:n, function(x) attr(some_df[[x]], "label") )

# if a vector of character strings is preferable
labels_vector <- map_chr(1:n, function(x) attr(some_df[[x]], "label") )

# to make a simple codebook
library(kable)
variable_name <- names(some_df)
data.frame(variable_name, description = labels_vector) %>%
  kable(format = 'markdown')

# UPDATE: another approach with package sjlabelled
library(sjlabelled)
sjlabelled::get_label(some_df)

【讨论】：

恕我直言，这应该是公认的答案，因为它更加优雅、简洁并利用了 purrr。甜蜜。

【解决方案2】：

跳过上面的@omar-waslow 答案，但添加了attr_getter 的使用。

如果数据 (some_df) 是使用 haven 包中的 read_dta 导入的，则 tibble 中的每一列都有一个名为 "label" 的 attr。所以我们拆分数据框，逐列进行。这将创建一个可以连接回来的两列数据框（例如，在 pivot_longer 之后）。

library(tidyverse)
label_lookup_map <- tibble(
   col_name = some_df %>% names(),
   labels = some_df %>% map_chr(attr_getter("label"))
)

【讨论】：

【解决方案3】：

我将尝试回答这个问题，虽然我的代码不是很漂亮。

首先我创建一个函数来从单个列中提取命名属性。

ColAttr <- function(x, attrC, ifIsNull) {
# Returns column attribute named in attrC, if present, else isNullC.
  atr <- attr(x, attrC, exact = TRUE)
  atr <- if (is.null(atr)) {ifIsNull} else {atr}
  atr
}

然后是一个将其应用到所有列的函数：

AtribLst <- function(df, attrC, isNullC){
# Returns list of values of the col attribute attrC, if present, else isNullC
  lapply(df, ColAttr, attrC=attrC, ifIsNull=isNullC)
}

最后我为每个属性运行它。

stub93 <- AtribLst(cps_00093.df, attrC="label", isNullC=NA)

labels93 <- AtribLst(cps_00093.df, attrC="labels", isNullC=NA)
labels93 <- labels93[!is.na(labels93)]

所有的列都有一个“label”属性，但只有一些是“labeled”类型的，所以有一个“labels”属性。标签属性被命名，其中标签匹配数据的值，并且名称告诉您这些值的含义。

【讨论】：