【问题标题】:Requirements for histograms, or why does my histogram only has two bins?直方图的要求,或者为什么我的直方图只有两个 bin?
【发布时间】:2017-09-07 13:47:55
【问题描述】:

我对统计研究比较陌生。我想绘制带有借方和贷方分录的日记帐的直方图。我认为“hist”函数会自行对条目进行分组,并显示出现的程度。

不幸的是,我只得到了两个 bin,即使我有两组以上的数据。

这是代码:

options(scipen = 10)
hist(YEAR_POSTEN$BETRAG,probability=TRUE)
lines(density(YEAR_POSTEN$BETRAG),col="red")

这是对期刊的一个小概述,我用'cut'做了,这是我对直方图的预期结果:

然而,这是我的 data.frame 的一部分,我实际上正在绘制:

YEAR_POSTEN$BETRAG
BETRAG
13409.09
766.3
6702.31
86912.85
8104.66
21603.08
63456.69
38421.7
3398.26
6378.9
15000
10450
6840
6840
-156809.82
114.1
20.93
-20.93
1695.6
1045.02

【问题讨论】:

  • 能否请您在cut 之前发布一个数据集?同时看看函数hist的参数breaks
  • 通过使您的示例可重现,您将增加获得好答案的机会。 basics of histogram creation 上的这篇文章概述了垃圾箱创建背后的机制。
  • 直方图不使用魔法 ">100,000" 箱。它们旨在显示分布的全部范围。您的情节可能受到少数异常值的极大影响。你想要的听起来更像是条形图而不是直方图。
  • 我不认为只有两个垃圾箱。
  • 我更新了我的初始帖子:不,还有其他几个垃圾箱,但它们不可见,因为它们中的大多数高度为 1。它们不可见。我已经使用了breaks选项,但是我的两个bin只会变得更窄,所以通过添加更多breaks,会有更多不可见的bins。我通过使用scale_x_log在ggplot2上取得了一点成功,但我没有发现,如何将 x 轴的标签从对数更改为正常数字..

标签: r histogram


【解决方案1】:

先生。弗里克关于将大量数据压缩到中心附近的一个箱中的异常值是正确的。如果主要兴趣是查看大量数据的“形状”,则可以在运行“hist”之前排除异常值。例如,在低端尝试将下限设置为

    quantile(YEAR_POSTEN$BETRAG, .025)

.025 (2.5%) 可以进行试验。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-07-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-10-30
    • 1970-01-01
    • 2017-08-22
    相关资源
    最近更新 更多