【发布时间】:2018-01-30 16:21:42
【问题描述】:
遇到问题。有两个数据集 A 和 B。假设它们是两个工厂的数据集。 A 工厂的表现非常好,而 B 工厂则不然。我有工厂 A 的数据集(数据从制造单位输出)以及工厂 B,两者都具有相同的变量。如何识别工厂 B 中需要修复的有问题的变量,以便工厂 B 也开始表现良好?因此,我需要确定需要立即关注的有问题的变量。
期待您的回复。
p.s: 使用的编码语言是 R
【问题讨论】:
标签: r dataset comparison
遇到问题。有两个数据集 A 和 B。假设它们是两个工厂的数据集。 A 工厂的表现非常好,而 B 工厂则不然。我有工厂 A 的数据集(数据从制造单位输出)以及工厂 B,两者都具有相同的变量。如何识别工厂 B 中需要修复的有问题的变量,以便工厂 B 也开始表现良好?因此,我需要确定需要立即关注的有问题的变量。
期待您的回复。
p.s: 使用的编码语言是 R
【问题讨论】:
标签: r dataset comparison
嗯,这是我帮助编写的 dataMaid 包的无耻插件,以及你所要求的那种。 dataMaid 包的想法是对数据框中的变量进行一系列测试,并生成一份报告,供人类调查员(最好是了解上下文的人)查看以识别潜在问题。
一个超级简单的入门方法是加载包并使用
clean 数据框上的函数(如果您尝试清理相同的数据
帧几次然后可能需要添加replace=TRUE
覆盖现有报告的参数)。
devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)
这将创建一个包含每个摘要和错误检查的报告
trees 数据框中的变量。提供了所有变量的摘要,对于 trees 数据,它看起来像这样
虽然每个变量的信息可能看起来像这样
在这里,我们获得了有关变量类型、汇总统计信息、绘图的状态以及 - 在这种情况下 - 指示异常值可能存在问题的指标。
dataMaid 包也可以通过对数据集中的单个变量或所有变量运行检查来交互使用
data(toyData)
check(toyData$var2) # Individual check of var2
check(toyData) # Check all variables at once
默认情况下,标准电池组测试运行取决于 变量类型,但可以通过提供您自己的检查来扩展包。
在您的情况下,我将在两个数据集上运行该包以获得两个报告,其中任何重大差异都会引发关于可能存在问题的标志。
【讨论】:
check 函数。