文章目录
- 什么是方差(variance)
-
- 方差公式的含义(为什么方差公式长这个样子)
- 总体方差
- 样本方差
-
- 为什么样本偏差要是n-1
- 什么是标准差(standard deviation)
- 什么是相对标准偏差(relative standard deviation)
- 什么是正态分布(normal distribution)
-
- 正态分布的性质
- 参考文献
方差描述了一组数据距离他们平均值的离散程度。(variance measures the dispersion of a set of data points around their mean)
例如,如果一个班的平均分是50分,可能有两种极端情况:
- 大部分人都在50左右附近徘徊:这种情况,说明数据集的每个数据距离平局值较近,离散程度小,方差较小
- 一半人接近一百分,另一半人接近0分:这种情况说明数据集的每个数据距离平局值较远,离散程度大,方差较大
这样,我们就可以通过对比两个班的方差,来计算哪个班的成绩比较稳定。
方差分为两种:
- 样本方差(sample variance):样本方差只选取整体数据的一部人来计算。当我们很难获取到整体数据时,就可以使用样本方差。公式如下: s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^2 = \frac{\sum^{n}_{i=1} (x_i-\bar{x})^2}{n-1} s2=n−1∑i=1n(xi−xˉ)2
- 总体方差(population variance):使用所有数据来计算方差。公式如下: σ 2 = ∑ i = 1 n ( x i − μ ) 2 n \sigma^2 = \frac{\sum_{i=1}^{n} (x_i -\mu)^2}{n} σ2=n∑i=1n(xi−μ)2
总体方差的符号为 σ 2 \sigma^2 σ2,样本方差的符号为 s 2 s^2 s2
方差公式的含义(为什么方差公式长这个样子)
我们把重点放在分子上: ∑ i = 1 n ( x i − x ˉ ) 2 \sum^{n}_{i=1} (x_i-\bar{x})^2 ∑i=1n(xi−xˉ)2
x i − x ˉ x_i-\bar{x} xi−xˉ : 距离平均值越小的数据,该结果越小,距离平均值越大的数据,该值越大。
那为什么又要加一个平方呢? ( x i − x ˉ ) 2 (x_i-\bar{x})^2 (xi−xˉ)2,主要有两个目的:
- 消除负数:如果不平方的话就会有负值存在,这样一求和,正负抵消了。
- 放大远距离数据的影响力:平方嘛,数据越大,平方后的结果就越大,这样可以更好的描述数据的离散程度
总体方差
总体方差公式如下:
σ 2 = ∑ i = 1 n ( x i − μ ) 2 n \sigma^2 = \frac{\sum_{i=1}^{n} (x_i -\mu)^2}{n} σ2=n∑i=1n(xi−μ)2
其中, μ \mu μ 为总体数据的平均值, n n n 为总数, x i x_i xi 为每个数据的值
样本方差
样本方差的公式如下:
s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^2 = \frac{\sum^{n}_{i=1} (x_i-\bar{x})^2}{n-1} s2=n−1∑i=1n(xi−xˉ)2
其中, x ˉ \bar{x} xˉ 为样本数据的平均值, n n n 为样本的总数, x i x_i xi 为每个数据的值
为什么样本偏差要是n-1
简单来说,如果不减1的话,那么样本方差一定小于总体方差。
数学证明如下(假设样本方差不减1):
由上式子可以看出,除非当 x ˉ = μ \bar{x}=\mu xˉ=μ 时,否则一定有
而在实践中,我们无法得知总体数据的平均值,所以就通过对 n − 1 n-1 n−1 的方式将样本方差稍微增大,以减少与实际方差的误差。
补充,上述式子,稍有难理解的地方:
2 n ∑ i = 1 n ( x i − μ ) = 2 n ( ( x 1 − μ ) ( x 2 − μ ) ⋯ ( x n − μ ) ) = 2 ( x 1 x 2 ⋯ x n ) n − 2 n ∗ n ∗ μ = 2 x ˉ − 2 μ = 2 ( x ˉ − μ ) \begin{aligned} \frac{2}{n} \sum^{n}_{i=1}(x_i - \mu) = & \frac{2}{n} ((x_1 - \mu) (x_2 - \mu) \cdots (x_n - \mu)) \\\\ = & 2\frac{(x_1 x_2 \cdots x_n)}{n} - \frac{2}{n} * n* \mu \\ \\ = & 2\bar{x} - 2\mu \\ \\ = & 2(\bar{x} - \mu) \end{aligned} n2i=1∑n(xi−μ)====n2((x1−μ) (x2−μ) ⋯ (xn−μ))2n(x1 x2 ⋯ xn)−n2∗n∗μ2xˉ−2μ2(xˉ−μ)
学过数学的都知道,把方差开平方就是标准差。
- 总体标准差:符号 σ \sigma σ, σ = σ 2 \sigma = \sqrt{\sigma^2} σ=σ2
- 样本标准差:符号 s s s, s = s 2 s = \sqrt{s^2} s=s2
那么为什么有了方差,还要引入标准差呢,或者说,为什么开了方,就是标准差呢?
其实,这是为了保证使数据的量纲保持一致。举例来说:
一个班的平局身高为170cm。该班身高的标准差为10cm,方差为100cm
从这个例子就可以看出,通过标准差,我们我可以看出,该班学生的身高大概围绕着170cm上下10cm进行浮动。但是看方差却看不出个所以然
相对标准偏差(relative standard deviation)也可以称为相对标准差,变异系数,标准偏差系数(coefficient of variation,cv)。
有了标准差了,为什么又要搞一个相对标准偏差呢?
来看下面这个例子:
假设一个汉堡在美国的不同地区的价格不一样,分别为:1,2,3,4,5,6,7,8,9,10
若现在的美元兑中国的汇率是1:6,那么使用rmb买,价格为:6,12,18,24,30,36,42,48,54,60
那么根据这两个数据,我们很容易得到两组数据:
地区 | 平均值 | 方差 | 标准差 |
---|---|---|---|
美国 | 5.5 | 8.25 | 2.87228 |
中国 | 33 | 297 | 17.23369 |
此时,你拿着这组数据说,rmb买买汉堡时,离散程度(波动程度)要远大于美元。这显然是不合适的。 所以此时,为了针对单位不一致时可以更准确的说明两组数据的离散程度,就引入了相对标准偏差。计算公式也很简单,只需要用标准差除以平均值就是相对标准偏差
- 总体相对标准偏差: c v = σ μ cv=\frac{\sigma}{\mu} cv=μσ
- 样本相对标准偏差: c v = s x ˉ cv=\frac{s}{\bar{x}} cv=xˉs
此时,我们再对上述两组数据进行比较:
地区 | 平均值 | 方差 | 标准差 | 相对标准偏差 |
---|---|---|---|---|
美国 | 5.5 | 8.25 | 2.87228 | 2.87228 / 5.5 = 0.522 |
中国 | 33 | 297 | 17.23369 | 17.23369 / 33 = 0.522 |
通过对比相对标准偏差,我们可以看到,其实这两组数据的离散程度是一致的
讨论完上面的,就可以开始说正态分布了。
正态分布,英文为normal distribution,顾名思义:正常的分布。
生活中大部分数据分布并不是均匀的,例如:收入水平、考试成绩。这些数据都有一个特征:中间数据量多,两边数据量少。最终形成如下图所示的分布情况:
如果实际举例,横坐标为工资,那纵坐标就是人数。中间的 μ \mu μ 为平均工资。
正态分布函数图像的方程式如下:
f ( x ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π σ1exp(−2σ2(x−μ)2)
该公式中,包含一个自变量 x x x,两个常量 μ \mu μ 和 σ \sigma σ ,其中 μ \mu μ 是指总体平均值, σ \sigma σ是标准差。该公式记做:
x ∼ n ( μ , σ 2 ) x \sim n (\mu, \sigma^2) x∼n(μ,σ2)
读作x服从正态分布。
正态分布的性质
我们根据下图这个例子:
绿色的线表示婴儿出生时的身高(单位英尺)分布,蓝色的线表示成人的身高分布。这两个数据都符合正态分布。
其中可以看出,绿色的平均值 20,即 μ 绿 = 20 \mu_绿 = 20 μ绿=20,而蓝色的平均值是70,即 μ 蓝 = 70 \mu_蓝=70 μ蓝=70。
所以,正态分布中的平均值 μ \mu μ 是用来决定图的中线在哪里
除此之外可以看出,绿色线的波动范围大概为 ± 5 \pm 5 ±5 英尺,即标准差为5英尺 σ 绿 = 5 \sigma_绿=5 σ绿=5,蓝色线的波动范围大概是 ± 10 \pm 10 ±10英尺,即标准差为10英尺 σ 蓝 = 10 \sigma_蓝=10 σ蓝=10。
所以,正态分布的宽窄,是由标准差决定的
再看,绿色线波动范围要小,所婴儿出生身高为20英尺的概率很大,而蓝色波动范围大,所以一个成年人身高为70英尺的概率相对就会小。所以蓝色线的高度远低于绿色线
所以,正态分布的标准差越小,这个图像就会越高,标准差越大,就会越矮
那么,另一个问题来了,有多少成年人是在 170 ± 10 170\pm10 170±10上下浮动呢,可以通过该图进行说明:
从图中可以看出,正态分布的主要三块面积为:
- 68.27% 的数据落在 u ± σ u\pm\sigma u±σ的区间上
- 95.45% 的数据落在 u ± 2 σ u\pm2\sigma u±2σ的区间上
- 99.73% 的数据落在 u ± 3 σ u\pm3\sigma u±3σ的区间上
这个规则适用于所有的正态分布