在我看来,您的数据远非离散。在处理连续数据时期望概率是完全错误的。 density() 给你一个经验密度函数,它接近真实的密度函数。为了证明它是一个正确的密度,我们计算曲线下的面积:
energy <- rnorm(100)
dens <- density(energy)
sum(dens$y)*diff(dens$x[1:2])
[1] 1.000952
考虑到一些舍入误差。曲线下面积之和为 1,因此density() 的结果满足 PDF 的要求。
使用hist 的probability=TRUE 选项或density() 函数(或两者)
例如:
hist(energy,probability=TRUE)
lines(density(energy),col="red")
给予
如果您确实需要离散变量的概率,请使用:
x <- sample(letters[1:4],1000,replace=TRUE)
prop.table(table(x))
x
a b c d
0.244 0.262 0.275 0.219
编辑:说明为什么天真的count(x)/sum(count(x)) 不是解决方案。事实上,曲线下的面积并不是因为箱的值总和为 1。为此,您必须乘以“箱”的宽度。采用正态分布,我们可以使用dnorm() 计算 PDF。以下代码构造正态分布,计算密度,并与朴素解决方案进行比较:
x <- sort(rnorm(100,0,0.5))
h <- hist(x,plot=FALSE)
dens1 <- h$counts/sum(h$counts)
dens2 <- dnorm(x,0,0.5)
hist(x,probability=TRUE,breaks="fd",ylim=c(0,1))
lines(h$mids,dens1,col="red")
lines(x,dens2,col="darkgreen")
给:
累积分布函数
如果@Iterator 是正确的,那么从密度构造累积分布函数相当容易。 CDF 是 PDF 的积分。在离散值的情况下,这只是概率的总和。对于连续值,我们可以利用经验密度估计的区间相等的事实,计算:
cdf <- cumsum(dens$y * diff(dens$x[1:2]))
cdf <- cdf / max(cdf) # to correct for the rounding errors
plot(dens$x,cdf,type="l")
给: