【发布时间】:2018-02-14 07:13:55
【问题描述】:
我有一个关于一般组合的问题,但在一个相当复杂的情况下,我还没有找到任何帮助。我正在尝试找到一种方法来报告数据集中所有可能的列组合。
土地变化文献调查的数据报告,并指出每篇文章中报告了哪些直接和潜在的驱动因素。因此,行表示单个文章,而列都表示最接近和潜在的驱动程序。有六种类型的邻近驱动因素和五种类型的潜在驱动因素。对于每篇文章,在该文章中标识的驱动程序的列中放置一个 1,在未标识的驱动程序的列中放置一个 0。表格大致如下:
key | d1 | d2 |...| d6 | i1 |...| i5 |
--------------------------------------
A1 | 1 | 0 |...| 1 | 1 |...| 0 |
A2 | 0 | 1 |...| 0 | 0 |...| 1 |
其中文章 A1 将 d1 和 d6 标识为直接驱动程序,将 i1 标识为间接驱动程序等。
我想做的是找出报告直接驱动因素、间接驱动因素以及直接和间接驱动因素的所有可能组合的文章数量。因此,例如,有多少文章标识了 d1、d2 和 i1;有多少识别 d1、d2 和 i2;等等?我的学生有一个 Excel 文件中的表格,我在想也许 Calc 或 Base 可能具有自动化该过程的功能。有人知道我该怎么做吗?
谢谢!
【问题讨论】:
-
所以您想识别所有 2^11 个组合并计算每个组合有多少?那是 2048 种不同的组合。
-
这就是我希望简化流程的原因。这个想法是确定文献中最常出现的驱动因素组合。
-
使用一点 UDF(或连接二进制数字)将驱动程序组合成一个条件字符串。然后使用数据透视表计算每个组合字符串的数量。
标签: mysql excel bash combinations summary