【发布时间】:2015-08-07 12:37:32
【问题描述】:
我正在学习 stata,并试图理解合并。有人可以向我解释不同类型的合并之间的区别吗? (1:1, 1:m, m:1, m:m)?
【问题讨论】:
-
merge命令在 Stata 数据管理参考手册中有大量文档,可从 Stata 帮助菜单中的 PDF 文档项访问。
我正在学习 stata,并试图理解合并。有人可以向我解释不同类型的合并之间的区别吗? (1:1, 1:m, m:1, m:m)?
【问题讨论】:
merge 命令在 Stata 数据管理参考手册中有大量文档,可从 Stata 帮助菜单中的 PDF 文档项访问。
如果Stata manual 不清楚,这里有一个快速概述。
首先,澄清术语很重要。
merge 基本上基于指定的变量或变量列表(称为key 变量)连接两个数据集中的行(Stata 称它们为observations)。您必须从内存中已经存在的一个数据集开始(Stata 将其称为master 数据集),然后您将merge 另一个数据集添加到它(另一个数据集称为using 数据集)。剩下的是一个单一的数据集,其中包含来自master 的所有变量,以及来自using 的任何不存在于master 中的变量。它还生成一个名为_merge 的新变量,指示master 中是否有不在using 中的行,反之亦然。合并的数据集(除非另有说明)将包含来自master 和using 的所有行,无论两者之间的关键变量是否匹配。
“唯一标识符”的概念很重要。如果变量(或变量组合)在每一行中具有不同的值,则它唯一地标识行。这对于 1:1、1:m 等细节很重要。
master 数据集中的键变量唯一标识行,但using 数据集中的键变量不唯一。您仍将保留两个数据集中的所有行,但如果关键变量在使用数据集中有重复的观察值,master 数据集将获得重复以匹配它们。master 数据集中的关键变量不能唯一标识行,但 using 数据集中的关键变量可以。例子:
** make a dataset and save as a tempfile called `b'. Note that k uniquely identifies rows
set obs 3
gen k = _n
gen b = "b"
list
+-------+
| k b |
|-------|
1. | 1 b |
2. | 2 b |
3. | 3 b |
+-------+
tempfile b
save `b'
** make another dataset and merge `b' to it. Note that k uniquely identifies rows
set obs 3
gen k = _n
gen a = "a"
list
+-------+
| k a |
|-------|
1. | 1 a |
2. | 2 a |
3. | 3 a |
+-------+
merge 1:1 k using `b'
list
+-------------------------+
| k a b _merge |
|-------------------------|
1. | 1 a b matched (3) |
2. | 2 a b matched (3) |
3. | 3 a b matched (3) |
+-------------------------+
** make another dataset and merge `b' to it. Note that k does not uniquely identify rows and that k=2 and k=3 do not exist in the master dataset
clear
set obs 3
gen k = 1
gen a = "a"
list
+-------+
| k a |
|-------|
1. | 1 a |
2. | 1 a |
3. | 1 a |
+-------+
merge m:1 k using `b'
list
+----------------------------+
| k a b _merge |
|----------------------------|
1. | 1 a b matched (3) |
2. | 1 a b matched (3) |
3. | 1 a b matched (3) |
4. | 2 b using only (2) |
5. | 3 b using only (2) |
+----------------------------+
【讨论】: