【发布时间】:2020-04-10 21:10:51
【问题描述】:
我创建了df,其中包含超过 8,000 个公司年
gvkey = 公司 ID
fam = 虚拟(如果公司是家族企业,则等于 1)
industry = 分类变量
gvkey fam industry
1 1004 0 6
2 1004 0 6
3 1004 0 6
4 1004 0 6
5 1004 0 6
6 1013 0 4
7 1013 0 4
8 1013 0 4
9 1013 0 4
10 1013 0 4
11 1013 0 4
12 1045 0 5
13 1045 0 5
14 1045 0 5
15 1045 0 5
16 1045 0 5
17 1045 0 5
18 1072 0 4
19 1072 0 4
20 1072 0 4
21 1072 0 4
22 1072 0 4
23 1076 1 9
24 1076 1 9
25 1076 1 9
26 1076 1 9
27 1076 1 9
28 1076 1 9
29 1078 0 4
30 1078 0 4
31 1078 0 4
32 1078 0 4
33 1078 0 4
34 1078 0 4
35 1121 1 6
36 1121 1 6
37 1121 1 6
38 1121 1 6
39 1121 1 6
40 1121 1 6
41 1161 0 4
42 1161 0 4
43 1161 0 4
44 1161 0 4
45 1161 0 4
46 1161 0 4
47 1209 0 4
48 1209 0 4
49 1209 0 4
50 1209 0 4
...
这就是输出的样子。行业描述=industry
语言逻辑:
1) 对于所有唯一的gvkey,创建一个列来计算每个行业中 fam = 0 的数量。
2) 为所有唯一的gvkey 创建一个列,计算每个行业中 fam = 1 的数量。
3) 创建一个输出,显示每个行业的家族企业和非家族企业的频率
也许甚至可以在一个代码中执行?!
非常感谢!!
【问题讨论】:
标签: r conditional-statements frequency