Statistics-3-集中趋势

在一个频率直方图中,最能精确代表一个平均范围或最能代表这组数据的是:出现频率最高的值、分布在中间的值、平均值。

众数—出现频率最高的值

英文:mode

  • 众数,也就是频率最高的范围(分组),因为无法看出单个值,看到的是一个分组。它出现在X轴上,是最高频率处的任何值。
  • 众数可用于描述任何数据类型,数值型和类别型都可以
  • 并不是数据集中的所有分值都会影响众数,只有众数的多少才会影响众数
  • 在直方图中,众数与呈现数据的方式有很大关系,改变组距会影响众数
  • 众数不能代表总体的分布,众数只能说明样本中出现最多的数据
  • 众数没有一个计算公式,是通过观察样本或直方图的分布来得出
  • 负偏斜分布中,众数也是频率最高的分组
  • 对于均匀分布的图形来说,没有众数
  • 分类数据的众数
    • x轴上出现次数最高的值

中位数—分布在中间的值

英文:median

  • 中位数,有一半的数据小于这个值,一半的数据大于这个值

  • 为了让中位数更有用,应该按顺序排列好数据

  • 样本量为奇数时,中位数为排序后的中间值

  • 样本量为偶数时,中位数为排序后的中间两个数字,再取中间值

  • 在处理高偏斜分布时,中位数能更好的反应集中趋势

  • 计算

    • n为偶数:中位数为中间两个数字的和除以2。

    • n为奇数:中位数为最中间的一个数。

平均值

英文:mean

  • 所有数值的和除以数值的个数
  • 特性
    • 分布中的所有分值都影响平均值
    • 平均值可用公式来描述
    • 同一个总体中的多个样本会有相似的平均值
    • 一个样本的平均值可以用来推论其所在的总体
    • 如果向数据集中添加一个极值,它的平均值会发生改变
  • 注意
    • 出现异常数据时,平均值会有误导性
    • 异常数据会把平均值拉向异常数值方向,造成偏斜分布
    • 此时的平均值不具备数据中位数的代表性

总结

异常数据对中位数和众数的影响不会很大,但是对平均数的影响却很大。

众数不受异常数据的影响,添加异常数值后中位数几乎没什么变化。

  • 偏态分布

    在本图中,众数最小;

    因为柱状图的右侧值更大,也就是说有很多大的数据,平均数当然也就更大,肯定大于中位数;

    中位数等量分割样本,图形左侧显然样本量多一些,中位数自然也就更接近左侧。

    所以,众数最小,中位数居中,平均数最大。

  • 正态分布

    图形左右对称,中位数当然居于中间;

    中间柱状图最高,也就是众数;

    沿X轴往右逐渐增大,也就意味着最中间的值是最平均的。

    因此,均值 = 中位数 = 众数。

  • 均值、中位数、众数比较

    上图中的表格,翻译如下:

    | | A | B | C | D | E |
    | ——— | —— | —— | —— | —— | —— |
    | 平均数 | ✔️ | ✔️ | ✔️ | | |
    | 中位数 | | | ✔️ | ✔️ | |
    | 众数 | | | | ✔️ | ✔️ |

    • A: 有一个简单的公式
    • B: 如果数据集中有数据的值变化,它也一定会变化
    • C: 不受组距变化的影响
    • D: 不易受到异常值的影响
    • E: 容易在直方图上找到
大爷给小弟的零花钱
显示 Gitment 评论