通过创建和解读直方图、柱状图和频数图,学习数据可视化基础知识。
优达学城学员背景广泛,如果我们想知道都有哪些人,参加了这些课程,该怎么办?现在看看样本量为50 的一组数据
大家花4秒钟的时间看看这个表格,并告诉我这个样本中的大多数学生都来自哪个国家
大多数学员都来自中国,但是只花 4 秒钟的时间来观察这一表格可能很难看出,你可能扫了一眼表格,发现上面写了好多“中国”,因此能够感觉到哪个国家出现的概率最高,你的大脑可以自动这么思考,但是对于统计学,我们需要用简单的方式规范化这一流程,如果你这次没有猜对也没事,这个小测验的最终目标就是向你展示 有了表格也是很难快速得出结论的,有什么更好的方法呢?
我们可以创建一个频次表,即数出每个国家出现的频次,我的做法是逐个计数
最终结果应该是这样的 注意它们的总和应该是50,即样本的总观察次数,通过频次表我们可以轻松地看出大多数学生来自中国。
我们不仅要研究绝对数值,还要看看这些数字之间的相互关系,换句话说,我们可能想要知道来自每个国家的学员所占的比例,了解有多少学员来自每个国家构成一个整体,这就叫做相对频率。
例如 这个样本的 50 名学员中有2名来自加拿大2/50 = 0.04,0.04 就是来自加拿大的学员所占的比例
通过相对频率,还可以看出在整体中所占的比例,如果我们包含了吉尔吉斯斯坦,吉尔吉斯斯坦的比例就是 0,因为这 50 名学员中没有一位来自吉尔吉斯斯坦,如果不看国家而是看星球,会发现所有学员都来自地球,因此地球的比例是 1,也就是说 50 名学员都来自地球,50/50=1。
所有比例都始终在 0 到 1 之间或等于 0 或 等于1。
对于任何频率表来说,相对频率(用比例表示)相加等于1。这表示表示我们考虑了所有情况。
现在我们来分析下这个频率表,来自美国的学员所占的比例是多少?来自印度的学员所占的比例呢?对于欧洲和亚洲 哪个地区的学员更多?
从表中可以看出 有 0.2 的学员来自美国,有 0.16 的学员来自印度。 从表中可以看出所有欧洲国家是英国、德国和瑞典;所有亚洲国家是中国、印度、日本和巴基斯坦。 欧洲学员的总比例是0.04+0.06+0.02=0.12 亚洲学员的总比例是0.24+0.16+0.16+0.02=0.58 看来亚洲学员的比例更高