Statistics-3.1-集中趋势总结翻译

我对课程中附带的文档做了大意翻译,当然也借助于Google Translate。

我们总共有三种测量分布中心的方法:

  1. 算术平均数或数据的均值
  2. 中位数
  3. 众数

让我们仔细看看这三点。

平均数

如果我们的数据集近似对称,并且不包含异常值,那么平均数或数据集的均值就适用于中心测量。

平均数的公式 $\frac{\sum_{i=1}^{n} {x_i}}{n}$ .这个公式告诉我们把数据集中所有的值相加,然后除以相加的值的数量。

平均数非常容易受到异常数据值的影响。最大异常值总会把平均值拉向异常值的方向。

中位数

当数据中出现异常值时,中位数最适用于中心测量。这是因为中位数不会受到相当小或相当大的观察体的影响。

中位数是一个数据点,有50%的数据高于它并且50%的数据低于它。为了从一个有n个数据的数据集中找到中位数的位置,我们应该分别考虑两种情况:

  1. 数据集中有奇数个的观察体数量

    a. 如果是这种情况的话,我们可以用 $\frac{n+1}2$ 来找到中位数的位置。

  2. 数据集中有偶数个的观察体数量

    a. 在这种情况下,我们找到中间的两个观察体数据并且取它俩的平均值。

中位数的例子:

用这个数据集作为一个例子:

为了找到中位数,采取的第一步就是对我们的数据集进行排序:

在这个例子中,因为 $n=11$ ,所以我们可以用 $\frac{n+1}2$ 来找到中位数,在本例中就是6。所以,我们可以在数据集中数到第6个观察体数据,恰好就是数字8。

如果我们有10个观察体数据,我们应该取中间两个数的平均数。

这就会取到我们的中位数7.5。

众数

这种中心测量最适用于分析目录型数据集。这个数字就是数字、数字范围或目录中出现频率最高的那个。

众数也不容易受到异常数据的影响,因为众数依赖于出现次数最多的观察体,而不是实际的观察体的值。

上面就是文档的大体翻译了,估计有些地方应该还是有些不太清楚。

阅读文档时,我发现平均数的表述用了mean,也用了average,于是网上搜罗了一番终于搞清楚。

统计学的范畴内,average有三种方式来表示:mean、mode、median。

mean是arithmetical mean,准确指一组数的“算术平均值”或“算术平均数”,也就是日常生活中理解的平均数;

mode指一组数据的众数,是一组数据中出现次数最多的那个数;

median指一组数据的中位数或中值,是把一组数据按照大小顺序排列好后,处在中间位置的那个数。

统计学在分析数据时,需要对数据进行最基础的描述性分析。在众多描述分析的指标中,平均数指标能够反映分布数列集中趋势.

平均数指标有两类:数值平均数,位置平均数。

数值平均数用mean表示;位置平均数用mode和median表示,因为它们能大概指出数据的平均数。

所以,当average表示数值平均数时,意思和mean是一样的;但是当表示位置平均数时,就是mode和median了。

大爷给小弟的零花钱
显示 Gitment 评论