【问题标题】:Histogram doesn't make the breakpoints correctly直方图无法正确设置断点
【发布时间】:2013-10-28 03:20:15
【问题描述】:

我有一些关于 xlsx 文件的数据,我已成功将其放在频率表中,并且使用 Sturges 正确配置了断点。

number_observations = length(data)
classes = factor(cut(data, breaks=nclass.Sturges(data)))
tabulation = as.data.frame(table(classes))
tabulation = transform(tabulacion, cumFreq = cumsum(Freq), relative = prop.table(Freq), cumRelative = cumsum(prop.table(Freq)))

% Tabulation display
    clases      Freq   cumFreq   relative   cumRelative
1    (195,262]  xxx    xxxx      x.xxxxxxx  x.xxxxxxx
2    (262,329]  yyy    yyyy      y.yyyyyyy  y.yyyyyyy
3    (329,396]  zzz    zzzz      z.zzzzzzz  z.zzzzzzz

现在,我需要用相同的断点做一个直方图,但问题是生成的直方图没有正确设置断点,这意味着,首先,数据的最大值和最小值显示不正确,并且其次,直方图比频率表有更多的类。对于这个问题,我希望直方图有 12 个类,但由于我未知的原因,它会产生更多。

任何建议和/或想法我做错了什么?

【问题讨论】:

  • 您可以在breaks 参数中指定您想要的特定断点histhist(classes, breaks=c(262, 329, ...))
  • 如果没有导入xpsx文件的数据和方法,我们只是猜测。

标签: r histogram


【解决方案1】:

我没有把注意力放在这个问题上是我的错,所以,我找到了一个解决方案,部分基于这个:How can 'arrange' command be used to generate a set of bins for histogram plot in R,并假设我的数据在一个数字向量中。

问题实际上是“如何正确设置直方图的 bin”,直方图的 bin 将代表每个类,所以我使用了数据的最小值和最大值,以及范围类的

bins = seq(min(data), max(data), by=range)

然后给出箱的数量作为直方图中断的参数。

hist(data, freq=TRUE, breaks=bins)

【讨论】:

    猜你喜欢
    • 2018-08-11
    • 1970-01-01
    • 1970-01-01
    • 2015-05-30
    • 1970-01-01
    • 2017-07-29
    • 1970-01-01
    • 1970-01-01
    • 2012-06-05
    相关资源
    最近更新 更多