给程序员们看的统计公式

与平均数有关的公式

修正后的标准差

标准差是一个反映出数据分散的多散的数字。它往往和平均数一起给出。
$$
s = \sqrt{\frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\bar{x})^{2}}
$$
其中

  • $N$ 是样本数
  • $x_{i}$ 是第 $i$ 个样本的值
  • $\bar{x}$ 是样本的平均值

标准误差

从统计学的角度讲,“平均”只是一个对平均值的估计,这个估计的不确定性由标准误差来衡量。
$$
SE = \frac{s}{\sqrt{N}}
$$

由期望给出的置信区间

置信区间反映了在某一置信水平下,统计假设不会被拒绝。所以由期望给出的置信区间反映了一系列可能的平均值,这些平均值作为对数据平均值的估计都不会被拒绝。
$$
CI = \bar{x} \pm t_{\alpha/2} SE
$$
其中

  • $\alpha$ 是显著性水平,一个典型的选择是 5% ,( 1 减去置信水平)
  • $t_{\alpha/2}$ 是自由度为 $N-1$ 的 t 分布的分位点

两样本 t 检验

两样本的 t 检验可以告诉你两组样本的平均数是否一样。

检验统计量由下式给出
$$
t = \frac{\bar{x_{1}} - \bar{x_{2}}}{\sqrt{s_{1}^{2}/n_{1}+s_{2}^{2}/n_{2}}}
$$
平均数相同的假设将在 $\lvert t \rvert$ 大于自由度为
$$
df = \frac{(s_{1}^{2}/n_{1}+s_{2}^{2}/n_{2})^2}{(s_{1}^{2}/n_{1})^{2}/(n_{1}-1)+(s_{2}^{2}/n_{2})^{2}/(n_{2}-1)}
$$
的 t 分布的 $1-\alpha /2$ 分位点时被拒绝。

与比例有关的统计公式

伯努利分布的参数的置信区间

伯努利分布的参数是两分类结果中某个事件的比例。(比如抛硬币是出现正面的次数。)
$$
CI = \left( p + \frac{z_{\alpha / 2}^{2}}{2N} \pm z_{\alpha / 2}\sqrt{[p(1-p)+z_{\alpha / 2}/4N] / N} \right) / (1+z_{\alpha / 2}^{2}/N)
$$
其中

  • $p$ 是你所感兴趣的事件被观察到的比例
  • $z_{\alpha / 2}$ 是正态分布的 $1-\alpha / 2$ 分位点

多项分布的参数的置信区间

$$
CI = \left( p_{j} + \frac{z_{\alpha / 2}^{2}}{2N} \pm z_{\alpha / 2}\sqrt{[p_{j}(1-p_{j})+z_{\alpha / 2}/4N] / N} \right) / (1+z_{\alpha / 2}^{2}/N)
$$

卡方检验

皮尔逊卡方检验可以检测出在一个表中每一行的样本频数是不是随着列的不同而变得不同(是否存在统计相关性)。

检验统计量
$$
X^{2} = \sum_{i=1}^{n} \sum_{j=1}^{m} \frac{(O_{i,j}-E_{i,j})^{2}}{E_{i,j}}
$$
其中

  • $n$ 是行数
  • $m$ 是列数
  • $O_{i,j}$ 是第 $i$ 行第 $j$ 列的观测频数
  • $E_{i,j}$ 是第 $i$ 行第 $j$ 列的期望频数

期望频数由下式给出
$$
E_{i,j} = \frac{\sum_{k=1}^{n} O_{k,j} \sum_{l=1}^{m} O_{i,l}}{N}
$$
其中

  • $N$ 是表中所有计数的总和

我们将在以下条件下认为存在统计相关性:$X^{2}$ 大于自由度为 $(m-1) \times (n-1)$ 的 $\chi^{2}$ 分布的 $1-\alpha$ 分位点。

与计数数据有关的统计公式

泊松分布的标准差

$$
\sigma = \sqrt{\lambda}
$$

泊松分布参数的置信区间

$$
CI = \left( \frac{\gamma^{-1}(\alpha / 2,c)}{t},\frac{\gamma^{-1}(1 - \alpha / 2,c+1)}{t} \right)
$$

其中

  • $c$ 是在经过 $t$ 个时间区段后被观测到的事件数
  • $\gamma^{-1}(p, c)$ 是低阶不完全伽马函数的反函数

两个泊松分布参数的条件检验

不要这样做:观测到 5 个,变化是 -2 个,所以减少了 28.57%。

从统计学的观点看,5 个与 7 个是没有明显区别的。在报告减少了很多之前,先做好两个泊松分布的平均值的条件检验。

p 值由下式给出
$$
p = 2 \times \frac{c!}{t^{c}} \times \min \left\{ \sum_{i=0}^{c_{1}}\frac{t_{1}^{i}t_{2}^{c-i}}{i!(c-i!)}, \sum_{i=c_{1}}^{c}\frac{t_{1}^{i}t_{2}^{c-i}}{i!(c-i!)} \right\}
$$
其中

  • 观测结果 1 历经了 $t_{1}$ 个时间区段,由 $c_{1}$ 个事件组成
  • 观测结果 2 历经了 $t_{2}$ 个时间区段,由 $c_{2}$ 个事件组成
  • $c = c_{1} + c_{2}$ ,$t = t_{1}+t_{2}$