【发布时间】:2015-01-06 17:35:05
【问题描述】:
我正在尝试计算P(A=a|B=b,C=c) 的条件概率,其中a 是['high', 'medium', 'low'] 中的一个元素,b 是['0-20', '20-40', '40-60', '60-80', '80-inf'] 中的一个元素,c 是['male', 'female'] 中的一个元素。
我有一本字典,其频率如下所示:
{('high', '0-20', 'female'): 11,
('high', '0-20', 'male'): 43,
('high', '20-40', 'female'): 10,
('high', '20-40', 'male'): 17,
('high', '40-60', 'female'): 11,
('high', '40-60', 'male'): 10,
('high', '60-80', 'female'): 2,
('high', '60-80', 'male'): 1,
('high', '80-inf', 'female'): 0,
('high', '80-inf', 'male'): 0,
('low', '0-20', 'female'): 130,
('low', '0-20', 'male'): 159,
('low', '20-40', 'female'): 186,
('low', '20-40', 'male'): 297,
('low', '40-60', 'female'): 71,
('low', '40-60', 'male'): 144,
('low', '60-80', 'female'): 35,
('low', '60-80', 'male'): 53,
('low', '80-inf', 'female'): 1,
('low', '80-inf', 'male'): 2,
('medium', '0-20', 'female'): 90,
('medium', '0-20', 'male'): 194,
('medium', '20-40', 'female'): 72,
('medium', '20-40', 'male'): 116,
('medium', '40-60', 'female'): 46,
('medium', '40-60', 'male'): 49,
('medium', '60-80', 'female'): 12,
('medium', '60-80', 'male'): 22,
('medium', '80-inf', 'female'): 1,
('medium', '80-inf', 'male'): 2}
我想要的是一个看起来像这样的字典:
{('high', '0-20', 'female'): P(A='high'| B='0-20', C='female'),
etc...,
}
【问题讨论】:
-
到目前为止你尝试了什么?
-
那些看起来不像频率......它们看起来更像是需要除以总计数才能产生频率的计数......它是否处理给定的数据以便得到你不理解的起始频率,或者条件概率的概念以及如何从离散概率中计算它们?
-
@twalberg 你是对的,这些是总数量。它是计算条件概率的概念,因为它们以多个变量为条件。
标签: python probability probability-theory