【发布时间】:2011-05-11 23:59:38
【问题描述】:
我需要分析一些有关 DSL 线路的 Internet 会话的数据。我想看看会话持续时间是如何分布的。我想一个简单的方法是从绘制所有会话持续时间的概率密度图开始。
我已经在 R 中加载了数据并使用了density() 函数。所以,是这样的
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
我是 R 和这种分析的新手。这是我通过谷歌发现的。我得到了一个情节,但我还有一些问题。这是做我想做的事情的正确功能还是还有其他什么?
在图中,我发现 Y 轴刻度是从 0...1.5。我不明白它怎么可能是 1.5,不应该是从 0...1 吗?
另外,我想获得更平滑的曲线。因为,数据集真的很大,所以线条真的是锯齿状的。当我介绍这个时,让它们变得平滑会更好。我该怎么做呢?
【问题讨论】:
-
你误解了密度。 X 的密度可以看作是一个值与从总体中抽取一个与 X 非常接近的数字的机会成正比。现在根据定义,密度函数的积分等于 1。这并不意味着密度函数的最大值应该为 1,它很容易变大。事实上,对于 df= (1,1) 的 F 分布,密度的最大值(在 0 处)甚至是无穷大。
-
@Joris 是的,我现在意识到我没有正确解释它。我相当简单地假设,因为它是一个概率分布,它会小于 1 :)。
-
@JorisMeys,当曲线下的总面积为1时,PDF怎么会大于1?如果 PDF 超过 1,是不是分布不正常,需要归一化?
-
@karthiks 因为例如一个高度为 10、宽度为 0.01 的矩形的面积为 0.1,而 Y 值(因此 PDF)为 10。对于该区域,您需要同时采用X 和 Y 轴都考虑在内,而不仅仅是 Y 轴。
标签: r plot probability distribution data-analysis