使用 R 比较好与坏数据集答案

【问题标题】：Comparison of good vs bad dataset using R使用 R 比较好与坏数据集
【发布时间】：2018-01-30 16:21:42
【问题描述】：

遇到问题。有两个数据集 A 和 B。假设它们是两个工厂的数据集。 A 工厂的表现非常好，而 B 工厂则不然。我有工厂 A 的数据集（数据从制造单位输出）以及工厂 B，两者都具有相同的变量。如何识别工厂 B 中需要修复的有问题的变量，以便工厂 B 也开始表现良好？因此，我需要确定需要立即关注的有问题的变量。

期待您的回复。

p.s: 使用的编码语言是 R

【问题讨论】：

标签： r dataset comparison

【解决方案1】：

嗯，这是我帮助编写的 dataMaid 包的无耻插件，以及你所要求的那种。 dataMaid 包的想法是对数据框中的变量进行一系列测试，并生成一份报告，供人类调查员（最好是了解上下文的人）查看以识别潜在问题。

一个超级简单的入门方法是加载包并使用 clean 数据框上的函数（如果您尝试清理相同的数据帧几次然后可能需要添加replace=TRUE 覆盖现有报告的参数）。

devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)

这将创建一个包含每个摘要和错误检查的报告 trees 数据框中的变量。提供了所有变量的摘要，对于 trees 数据，它看起来像这样

虽然每个变量的信息可能看起来像这样

在这里，我们获得了有关变量类型、汇总统计信息、绘图的状态以及 - 在这种情况下 - 指示异常值可能存在问题的指标。

dataMaid 包也可以通过对数据集中的单个变量或所有变量运行检查来交互使用

data(toyData)
check(toyData$var2)  # Individual check of var2
check(toyData)       # Check all variables at once

默认情况下，标准电池组测试运行取决于变量类型，但可以通过提供您自己的检查来扩展包。

在您的情况下，我将在两个数据集上运行该包以获得两个报告，其中任何重大差异都会引发关于可能存在问题的标志。

【讨论】：

感谢您的回答。我已经尝试过了，但它不能满足我的要求。由于我正在为业务用户创建一个用于比较数据集的用户界面，因此我需要向他们展示一个简单的输出，上面写着“变量 X 有问题。请纠正它”整个处理将在后端完成并且不会不会显示给用户。
此输出的 PDF 非常有用，但仅适用于像我们这样可以阅读文档并推断出问题的数据科学家/分析师。
感谢您的帮助。再次感谢。以前不知道这个库。如果您有任何其他建议，请告诉我。
你可以使用包提供的信息来制作你自己的列表 - 没有必要将结果渲染到标准输出文件中。查看check 函数。