聚合和 cbind 函数说明答案

【问题标题】：Explanation for aggregate and cbind function聚合和 cbind 函数说明
【发布时间】：2018-09-21 20:35:10
【问题描述】：

首先我看不懂聚合函数和 cbind 我需要解释非常简单的单词，其次我有数据

permno number         mean        std
1   10107    120 0.0117174000 0.06802718
2   11850    120 0.0024398083 0.04594591
3   12060    120 0.0005072167 0.08544500
4   12490    120 0.0063569167 0.05325215
5   14593    120 0.0200060583 0.08865493
6   19561    120 0.0154743500 0.07771348
7   25785    120 0.0184815583 0.16510082
8   27983    120 0.0025951333 0.09538822
9   55976    120 0.0092889000 0.04812975
10  59328    120 0.0098526167 0.07135423

我需要处理这个

data_processed2 <- aggregate(cbind(return)~permno, Data_summary, median)

我无法理解这个命令，请给我解释得很简单谢谢！

【问题讨论】：

1) return 不是您的示例数据集的列。 2) cbind(return) 什么都不做，它只绑定一列。 3）Data_summary是什么，在哪里定义的？
如果您说您需要帮助理解您正在使用的代码行，它来自哪里？
谢谢大家，现在我明白为什么它不工作了 data_processed2

标签： r

【解决方案1】：

cbind 获取两个或多个表（数据框），将它们并排放置，然后将它们组合成一个大表。例如，如果您有一张包含 A、B 和 C 列的表格，以及另一张包含 D 和 E 列的表格，那么在您 cbind 他们之后，您将拥有一张包含五列的表格：A、B、C、D 和E. 对于行，cbind 假定所有表的顺序相同。正如 Rui 所指出的，在您的示例中 cbind 没有做任何事情，因为 return 不是一个表，即使它是，它也只是一件事。

aggregate 获取一个表，将其除以某个变量，然后计算每个组内变量的统计量。例如，如果我有按月和按天计算的销售数据，我可以按月汇总，并计算每个月每天的平均销售量。

您提供的命令使用以下语法：

aggregate(VARIABLES~GROUPING, DATA, FUNCTION)

Variables (cbind(return) - 真的没有意义) 是所有变量的列表，你的统计数据将被计算在内分组 (pernmo) 是将数据分组的变量（在您提供的示例数据中，每一行都有一个唯一的变量编号，因此这也没有任何意义）。数据是您正在使用的数据框。函数是中位数。

因此，此调用会将 Data_summery 分成具有相同 pernmo 的组，并计算每一列的中位数。

使用您提供的数据，您基本上会得到同一张表，因为您按每组一行对数据进行分组...-实际上，由于您的变量是一个空组，就我可以告诉你，你将一无所获。

【讨论】：