【发布时间】:2011-02-17 18:52:35
【问题描述】:
我想绘制数据,这样在 y 轴上会有概率(在 [0,1] 范围内),在 x 轴上我有数据值。数据是连续的(也在 [0,1] 范围内),因此我想使用一些核密度估计函数并将其归一化,以便某个点 x 的 y 值表示在输入中看到值 x 的概率数据。
所以,我想问一下:
a) 这是否合理?我知道我不可能看到数据中没有的值,但我只想使用核密度估计函数在我拥有的点之间进行插值,然后对其进行归一化。
b) 我可以使用 ggplot 中的任何内置选项,例如这样做会覆盖 geom_density() 的默认行为吗?
提前致谢,
提莫
编辑: 当我之前说“标准化”时,我实际上是指“规模”。但我得到了答案,所以感谢大家澄清我的想法。
【问题讨论】:
-
我不确定你所说的绘制概率但“不是密度”是什么意思,但你提到想要对数据进行内核平滑。内核所做的是将经验分布(即直方图)转换为平滑的密度函数(即 PDF)。我认为您必须放弃内核平滑要求或不绘制密度的愿望。尽管当您说“之后对其进行规范化”时,您可能正在解决这个问题。
-
谢谢你让我清醒。我认为在这种情况下只使用直方图更合适。如果我试图用平滑来绘制概率,我想我会混淆任何试图解释这些图的人。