【问题标题】:Why some portion of statistics is not used in data science为什么数据科学中不使用某些统计数据
【发布时间】:2018-03-14 12:16:42
【问题描述】:

我学习了包括平均值、中位数、众数和不同测试的统计数据

是Z检验、F检验和卡方,几乎都参与

困难的数字数据预测挑战,例如 kaggle 和其他

平台我几乎看不到有人使用 z、f、卡方等统计测试

这些数据的标准化——我们都使用箱线图、条形图来查看均值,

中位数、众数等

我的问题是这些测试是数据科学中不可或缺的一部分,因为什么

这类问题主要是基于研究设计的。

理想情况下应该在数据科学问题中使用哪一部分统计数据以及

为什么在所有统计数据都必须用于数据科学时只使用一部分。

我问的是除算法之外的测试和其他统计数据。

【问题讨论】:

  • 投票结束,因为这不是编程问题。这可能适用于统计数据或其他网站,尽管范围很广。

标签: statistics kaggle


【解决方案1】:

如果您正在研究诸如 A/B 测试之类的东西,那么您最有可能在数据科学中看到统计假设检验,您的目标是确定两个样本之间是否存在可靠的差异以及该差异的大小.

Kaggle 比赛具体来说是监督学习问题,而不是假设检验,这就是为什么你看不到人们使用卡方之类的东西的原因。 (这是有道理的:如果你有 10 个人在同一个数据集上进行假设检验,他们都应该得到几乎相同的答案,这将导致一场非常无趣的竞争。)

就个人而言,我认为熟悉统计假设检验和机器学习技术是件好事,因为它们有不同的用途。希望有帮助! :)

【讨论】:

    【解决方案2】:

    数据科学中的每个问题都需要不同的方法,因此通用统计数据可能不适用。会有一些可能不需要统计的问题

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-04-04
      • 2021-06-03
      • 2013-07-12
      • 1970-01-01
      相关资源
      最近更新 更多