参考:概率论与数理统计笔记
基础概念
独立:设$A$,$B$是随机试验中的两个事件,若满足P(AB)=P(A)P(B),则称事件$A$和$B$相互独立。
条件概率:条件概率就是知道了一定信息下得到的随机事件的概率。为事件$B$发生条件下事件$A$发生的条件概率:
P(A∣B)=P(B)P(AB) 全概率:两两不相容的一组事件分割A的样本空间。
P(A)=i=1∑nP(A∣Bi)P(Bi) 贝叶斯公式:条件概率公式+全概率公式:
P(Bi∣A)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi) 古典概型:设一个试验有N个等可能的结果,而事件$E$恰包含其中的$M$个结果,则事件$E$的概率,记为$P(E)$,定义为
古典概型有两个条件:
随机变量及其分布
随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。
随机变量
设$X$为一随机变量,如果$X$只取有限个或可数个值,则称$X$为一个(一维)离散型随机变量。
设$X$为一随机变量,$X$不仅有无限个而且有不可数个值,则称$X$为一个连续型随机变量。
概率函数(离散和连续):
P(X=ai)=pi,i=1,2,... f(x)=F′(x) 连续随机变量的一切取值充满整个样本空间,而这其中有无穷个不可列的实数,因此无法采用分布列表示,采用概率密度函数表示。
概率密度函数不是概率,乘以区间长度微元后就表示概率的近似值,而概率密度函数在一段区间上的积分就是随机变量 X 在这段区间上取值的概率。
分布函数(离散和连续):
F(X)=P(X≤x)(−∞<x<∞) F(x)=∫−∞xf(u)du,−∞<x<+∞ 随机变量的分布函数表述了随机变量的统计规律性,已知一个随机变量的分布函数就可以得知该随机变量落在某一区间的概率。
常见分布
参考:概率论常用分布一览表
泊松定理:在伯努利试验中,pn代表事件A在试验中出现的概率。在n较大,通常取大于等于100,p较小,通常取小于等于0.1的情况下,如果n→+∞limnpn=λ, 则
n→+∞limCnkpnk(1−pn)n−k=k!λke−λ 指数分布的无记忆性:
P(X>s+t∣X>s)=P(X>t) 正态分布的可加性:
如果多个随机变量分别服从不同的正态分布,如果这些随机变量彼此独立,那么这些随机变量的和也服从正态分布。
泊松分布:常用于一天内到达顾客数、铸件上的砂眼数、一天内电路受到电磁波干扰次数等等
几何分布:一次伯努利试验中事件 A 首次出现时的试验次数。例如产品不合格率调查。
指数分布:常用于随即服务系统、寿命估计、排队论等等
多维随机变量
边缘分布(离散和连续):
对于离散型随机向量,行和与列和就是边缘分布。即固定某个xi,即可计算边缘分布
pX(xi)=P(X=xi)=j∑mP(X=xi,Y=yj)=j∑mpij=pi⋅,i=1,2,...,npY(yi)=P(Y=yi)=i∑mP(X=xi,Y=yj)=i∑mpij=pj⋅,j=1,2,...,n (X,Y)∼f(x,y)fX(u)=∫−∞+∞f(u,v)dvfY(u)=∫−∞+∞f(u,v)du 若随机变量X1,...,Xn相互独立,则(离散和连续):
P(X1=x1,...,Xn=xn)=P(X1=x1)...P(Xn=xn) f(x1,...,xn)=f1(x1)...fn(xn),∀(x1,...,xn)∈Rn **注:**二维正态分布N(a,b,σ12,σ22,ρ)的边缘分布密度分别是一维正态分布N(a,σ12)和N(b,σ22)。联合分布可推边缘分布,而边缘分布不可推联合分布。
二维正态分布中 X Y 独立的充要条件是 ho=0
条件分布(离散和连续):
P(X=xi∣Y=yj)=P(Y=yj)P(X=xi,Y=yj)=p⋅jpij,i=1,2,... fX∣Y(x∣y)=fY(y)f(x,y),fY(y)>0. 总结:
联合概率是基于两个随机变量及其相互作用的样本空间的概率。边缘概率是多维随机变量的样本空间中,某一个或多个随机变量构成的子空间的概率。
条件=边缘联合 随机变量的函数的概率分布
离散型分布的情形:
设$X$的分布律为P(X=xi)=pi,Y=g(X),则Y的分布律为
P(Y=yj)=P(g(X)=yj)=xi:g(xi)=yj∑P(X=xi)=i:g(xi)=yj∑pi 即把Y=g(X1,...,Xn)可以取的不同值找出来,把与某个值相应的全部(X1,...,Xn)值的概率加起来,即得$Y$取这个值的概率。
连续型分布的情形:
X有密度函数f(x).Y=g(x)是一个严格单调的函数,因此其反函数X=h(Y)存在。有密度函数l(y)为:
l(y)=f(h(y))∣h′(y)∣. 设(X1,X2)的联合密度函数为f(x1,x2),Y=X1+X2的密度函数:
l(y)=∫−∞∞f(x1,y−x1)dx1=∫−∞∞f(x,y−x)dx 若X1,X2独立,则
l(y)=∫−∞∞f1(x)f2(y−x)dx=∫−∞∞f1(y−x)f2(x)dx 随机变量的数字特征
数学期望:
E(X)=i=1∑∞aipi E(X)=∫−∞∞xf(x)dx 方差:
D(X)=Var(X)=E(X−EX)2 Var(X)=E(X2)−(EX)2 σ(X)=Var(X)称为标准差。
矩:
X关于c点的k阶矩:
E[(X−c)k] 特别的,k阶原点矩(一阶原点矩就是期望):
ak=E(Xk) 特别的,k阶中心矩(二阶中心距是方差):
μk=E[(X−EX)k] 协方差:
Cov(X,Y)=E[(X−EX)(Y−EY)] Cov(X,Y)=E(XY)−E(X)E(Y) 次序无关,即Cov(X,Y)=Cov(Y,X)
Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)
D(X±Y)=D(X)+D(Y)±2Cov(X,Y)
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
协方差大于零,表示这两个随机变量呈正相关关系,若协方差小于零表示两个随机变量呈负相关关系。而协方差等于零表示不“线性相关”。
相关系数:
hoXY=σ1σ2Cov(X,Y) 若X,Y不相关:hoXY=0,Cov(X,Y)=0,D(X)D(Y)=0
相关系数可以看作标准化的协方差,它没有量纲,取值范围在[0, 1]。hoXY=1或−1时,有严格线性关系。
独立一定不相关,而不相关不一定独立。例如线性不相关的随机变量可能是非线性相关。最常见的例子就是 Logistics 函数或者二次函数,自变量和因变量计算所得相关系数很低,但是是互相依赖的变量。
大数定理和中心极限定理
参考:大数定律与中心极限定理
切比雪夫不等式:即使X分布未知,仍可以对距离期望足够远的地方事件出现的概率做出估计:
P{∣X−μ∣≥ϵ}≤ϵ2σ2 切比雪夫大数定律:说明了对于独立但分布不同的 n 个随机变量,随机变量的平均值约等于总体期望的平均值。
n→∞limP(∣n1k=1∑nXk−n1i=1∑nE(Xk)∣<ϵ)=1 辛钦大数定理:说明了对于独立同分布且具有均值 a 的 n 个随机变量,当n 很大的时候它们的算术平均值依概率收敛于均值。
n→∞limP{∣n1i=1∑nξi−a∣<ε}=1 伯努利大数定律:表明只要随机试验的次数 n 充分大,那么事件 A 频率和概率的绝对偏差很小,说明在实际应用中,试验次数很大的时候可以用事件的频率来替代事件的概率。
n→∞limP{∣nμn−p∣<ε}=1 独立同分布中心极限定理: 样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值(数学期望)周围,并且呈正态分布。
n→∞limFn(x)=n→∞limP{nσ∑k=1nXk−nμ≤x}=Φ(x) 等价的:
k=1∑nXk∼N(nμ,nσ2) 棣莫弗-拉普拉斯中心极限定理:是独立同分布中心极限定理的特殊情况,当Xn∼B(n,p)时:
n→∞limP{np(1−p)Xn−np≤x}=Φ(x) 数理统计基础概念
在一个统计问题里,研究对象的全体叫做总体,构成总体的每个成员称为个体。从总体中随机抽取的部分个体组成的集合称为样本,样本个数称为样本容量。
统计量:不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。
样本均值:
X=n1i=1∑nXi E(X)=E(X)=μ 样本方差:
S2=n−11i=1∑n(Xi−X)2 E(S2)=D(X)=σ2 D(X)=n1D(X)=nσ2 k阶原点矩(样本均值为一阶原点矩):
Ak=n1i=1∑nXik k阶中心距(样本方差为二阶中心矩):
Bk=n1i=1∑n(Xi−X)k 常用统计抽样分布
参考:统计三大分布、样本及抽样分布、正态总体的样本均值与样本方差的分布定理
χ2分布:
是由正态分布派生出来的一种分布,如果X1,...Xn都服从标准正态分布,则称随机变量:
χ2=X12+X22+⋅⋅⋅+Xn2 所服从的分布为自由度为n的χ2分布,记为χ2∼χ2(n)
关于期望和方差,复习一下上面的常见分布表!
可加性:χ12+χ22∼χ2(n1+n2)
t分布:
X∼N(0,1),Y∼χ2(n) 且X与Y相互独立,则称随机变量:
T=Y/nX 所服从的分布为自由度为n的t分布。记为 T∼t(n)
t分布的密度函数关于x=0对称,t1−α(n)=−tα(n)
当n充分大时,其图形类似于标准正态分布密度函数的图形。
F分布:
X与Y相互独立,X∼χ2(n1),Y∼χ2(n2),则称随机变量:
F=Y/n2X/n1 服从自由度为n1 以及n2 的F分布,记作F∼F(n1,n2)
F1−α(n1,n2)=Fα(n2,n1)1
F1∼F(n2,n1)
正态总体的抽样分布性质:
X1,...Xn是来自正态总体N(μ,σ2)的样本,则:
E(X)=μ,D(X)=σ2/n,E(S2)=σ2,X∼N(μ,σ2/n). X与S2相互独立,且:
σ2(n−1)S2∼χ2(n−1) S/nX−μ∼t(n−1) X1,...Xn是来自正态总体N(μ1,σ12)的样本,Y1,...Yn是来自正态总体N(μ2,σ22)的样本,则:
S22/σ22S12/σ12∼F(n1−1,n2−1) Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2) Sw2=n1+n2−2(n1−1)S12+(n2−1)S22 参数估计
统计学与概率论的区别就是归纳和演绎,前者通过样本推测总体的分布(似然),而后者已知总体分布去研究样本。因此参数估计则是归纳的过程。
参数估计有两种形式:点估计和区间估计(点估计和区间估计都是对于未知参数的估计,而点估计给出的是一个参数可能的值,区间估计给出的是参数可能在的范围)。
点估计
设X1,...,Xn是来自总体的样本,用于估计未知参数θ的统计量θ^=θ^(X1,...,Xn)成为θ的估计量,或称为θ的点估计。
无偏估计:E(θ^)=θ
更有效的估计:在都为无偏估计的情况下,D(θ^) 小的更有效
相合估计:经验分布函数逼近真实分布函数,limn→∞P(∣θ^n−θ∣≥ϵ)=0
矩估计法:
矩估计基于大数定律(格里纹科定理),实质是用经验分布函数去替换总体分布,矩估计可以概括为:用样本矩代替总体矩(可以是原点矩也可以是中心矩)
E(Xj)=n1i=1∑nXij 公式左边是总体结论,公式右边来自样本,几个未知参数列几个方程(尽量使用低阶矩)
最大似然估计:
将样本的联合概率函数看成θ的函数,L(θ)称为样本的似然函数:
L(θ)=L(x1,...,xn;θ)=i=1∏np(xi;θ) 若统计量θ^=θ^(x1,...,xn)满足
L(θ^)=θ∈ΘmaxL(θ) 则称θ^是θ的最大似然估计,简称MLE(maximum likelihood estimate),其中Θ表示参数空间。换句话说,想找到一个估计,使已经观测到的事件发生的可能性最大。
最大似然估计步骤:
区间估计
如果:
Pθ(θ^L≤θ≤θ^U)=1−α 称随机区间[θ^L,θ^U]为θ的置信水平为1−α的置信区间
假设检验
假设检验基于小概率事件,即小概率事件在一次试验中几乎不会发生。
一般步骤: