💻
QMMMS的笔记
博客
  • QMMMS的笔记
  • agent
    • MCP的背景、原理和开发
    • Agent 历史与背景
    • Agentic Workflows
    • 环境检查与基础工具
    • Tool Call
    • 工具与运行时的值
    • temp
    • 处理 Tool Call error
    • trick
  • algorithm
    • 线性结构
    • 二叉树
    • 图
    • 查找
    • 排序
    • 动态规划
    • 优化方法
    • 数学
    • 迁移至Java
  • computer_composition
    • 系统总线
    • 存储器
    • 输入输出系统
    • 计算机的运算方法
    • 指令系统
    • 补充
  • computer_network
    • 引入
    • 应用层
    • 传输层
    • 网络层(数据平面)
    • 网络层(控制平面)
    • 链路层
    • 常见问答
    • 实验
  • database
    • SQL实战
    • 关系代数
    • 数据库设计
    • 规范化
    • 数据库基本概念
    • 查询原理
    • 数据库恢复技术
    • 并发控制
  • dev_tools
    • Git
    • Nginx
    • Spring
    • LangChain
    • PyTorch Cheat Sheet
    • MyBatis
    • MySQL Cheat Sheet
    • MySQL 补充
    • Redis
    • Docker
    • RocketMQ
    • Chrome
  • linux
    • Linux基础命令与使用
    • 文件与权限
    • 文件与目录操作
    • 权限属性高级
    • 命令与文件的查找
    • 文件压缩和打包
    • vim编辑器
    • shell变量
    • 命令补充
    • 数据流重定向
    • 管道命令
    • shell脚本
    • 用户管理
    • 用户间交流
    • 计划任务
    • 进程管理
    • 软件管理
    • 认识系统服务
    • 运维常用命令
    • 常用命令
  • llm
    • 大规模语言模型概述
    • 分布式训练概述
    • 有监督微调概述
    • 强化学习与LLM
    • LLM评估概述
    • 大模型应用
    • 理解大模型
    • 量化
    • 预训练
    • 上下文学习
  • machine_learning
    • 引入
    • 大致正确学习
    • 一致收敛
    • 偏差还是过拟合?
    • 可学习的充要条件
    • 非均匀可学习性
    • 计算复杂性
  • mathematics
    • 概率与统计基础
    • 线性代数基础
  • operating_system
    • 操作系统基本概念
    • 进程和线程
    • 同步,互斥与死锁
    • 内存管理
    • 文件系统
    • I/O系统
    • 保护与安全
    • 《现代操作系统》
  • statistical_learning
    • 统计学习引入
    • 线性回归
    • 分类
    • 重抽样方法
    • 线性模型选择与正则化
    • 非线性模型
    • 基于树的方法
    • 支持向量机
    • 无指导学习
    • 马尔科夫链和蒙托卡罗方法简明理解
    • R语言速查
  • deep_learning
    • basic_concepts
      • 逻辑回归与损失函数
      • 神经网络
      • 正则化、预处理、权重初始化
      • 优化算法
      • 机器学习策略
      • 复习:从计算机视觉的角度
      • 卷积神经网络
      • 深度卷积网络示例
      • 计算机视觉任务
      • 循环神经网络
      • 自然语言处理任务
      • 注意力
      • Transformers 家族
      • 显卡扫盲
      • 强化学习概述
    • semi-supervise
      • 半监督学习简介
      • Consistency Regularization
      • Proxy-label Methods
      • Holistic Methods
      • Generative Models
      • Graph-Based SSL
      • Self-Supervision for SSL
      • Other SSL methods
  • programming
    • cpp
      • STL
      • C++基础
      • 内存管理
      • 面向对象
    • java
      • 环境和介绍
      • 注释
      • String
      • 面向对象思想
      • Object
      • 包
      • 访问权限修饰符
      • 初始化块
      • 接口
      • 内部类
      • 注解
      • 枚举
      • 集合框架
      • List
      • Map
      • 泛型
      • 迭代
      • IO与流
      • 序列化
      • 异常
      • Lambda
      • Stream流
      • Socket
      • 缓冲
      • 命名规范
      • 拆箱装箱
      • 值传递
      • 深拷贝
      • 反射
      • JVM
      • 并发编程基础
    • python
      • 并发编程
      • 环境管理
  • software_engineering
    • basic_concepts
      • 系统分析与设计概述
      • 规划
      • 需求分析与原型设计
      • 项目管理
      • 建模
      • 数据库设计
      • 架构
      • 配置管理
      • 测试管理
      • 安全
      • 编码原则
      • 微服务
      • 补充内容
    • software_testing
      • CMMI基础
      • PPQA与SQA
      • 软件测试基础
      • 黑盒测试
      • 白盒测试
      • 集成测试
      • 系统测试
      • 测开面试补充
由 GitBook 提供支持
在本页
  • 基础概念
  • 随机变量及其分布
  • 随机变量
  • 常见分布
  • 多维随机变量
  • 随机变量的函数的概率分布
  • 随机变量的数字特征
  • 大数定理和中心极限定理
  • 数理统计基础概念
  • 常用统计抽样分布
  • 参数估计
  • 点估计
  • 区间估计
  • 假设检验
在GitHub上编辑
  1. mathematics

概率与统计基础

上一页mathematics下一页线性代数基础

最后更新于11个月前

参考:

基础概念

独立:设$A$,$B$是随机试验中的两个事件,若满足P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B),则称事件$A$和$B$相互独立。

条件概率:条件概率就是知道了一定信息下得到的随机事件的概率。为事件$B$发生条件下事件$A$发生的条件概率:

P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)​

全概率:两两不相容的一组事件分割A的样本空间。

P(A)=∑i=1nP(A∣Bi)P(Bi)P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i)P(A)=i=1∑n​P(A∣Bi​)P(Bi​)

贝叶斯公式:条件概率公式+全概率公式:

P(Bi∣A)=P(A∣Bi)P(Bi)∑j=1nP(A∣Bj)P(Bj)P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_j)P(B_j)}P(Bi​∣A)=∑j=1n​P(A∣Bj​)P(Bj​)P(A∣Bi​)P(Bi​)​

古典概型:设一个试验有N个等可能的结果,而事件$E$恰包含其中的$M$个结果,则事件$E$的概率,记为$P(E)$,定义为

P(E)=M/NP(E)=M/NP(E)=M/N

古典概型有两个条件:

  • 有限性,试验结果只有有限个(记为n),

  • 等可能性,每个基本时间发生的可能性相同。

随机变量及其分布

随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。

随机变量

  • 设$X$为一随机变量,如果$X$只取有限个或可数个值,则称$X$为一个(一维)离散型随机变量。

  • 设$X$为一随机变量,$X$不仅有无限个而且有不可数个值,则称$X$为一个连续型随机变量。

概率函数(离散和连续):

P(X=ai)=pi,i=1,2,...P(X=a_i)=p_i,i=1,2,...P(X=ai​)=pi​,i=1,2,...
f(x)=F′(x)f(x)=F'(x)f(x)=F′(x)

连续随机变量的一切取值充满整个样本空间,而这其中有无穷个不可列的实数,因此无法采用分布列表示,采用概率密度函数表示。

概率密度函数不是概率,乘以区间长度微元后就表示概率的近似值,而概率密度函数在一段区间上的积分就是随机变量 X 在这段区间上取值的概率。

分布函数(离散和连续):

F(X)=P(X≤x)(−∞<x<∞)F(X)=P(X\leq x)\quad(-\infty<x<\infty)F(X)=P(X≤x)(−∞<x<∞)
F(x)=∫−∞xf(u)du,−∞<x<+∞F(x)=\int_{-\infty}^xf(u)du,\quad-\infty<x<+\inftyF(x)=∫−∞x​f(u)du,−∞<x<+∞

随机变量的分布函数表述了随机变量的统计规律性,已知一个随机变量的分布函数就可以得知该随机变量落在某一区间的概率。

常见分布

泊松定理:在伯努利试验中,pnp_npn​代表事件A在试验中出现的概率。在n较大,通常取大于等于100,p较小,通常取小于等于0.1的情况下,如果lim⁡n→+∞npn=λ\lim \limits_{n\rightarrow +\infty} np_n = \lambdan→+∞lim​npn​=λ, 则

lim⁡n→+∞Cnkpnk(1−pn)n−k=λkk!e−λ\lim \limits_{n\rightarrow +\infty}C_n^kp_n^k(1-p_n)^{n-k} = {\lambda^k\over k!}e^{-\lambda}n→+∞lim​Cnk​pnk​(1−pn​)n−k=k!λk​e−λ

指数分布的无记忆性:

P(X>s+t∣X>s)=P(X>t)P(X>s+t∣X>s)=P(X>t)P(X>s+t∣X>s)=P(X>t)

正态分布的可加性:

如果多个随机变量分别服从不同的正态分布,如果这些随机变量彼此独立,那么这些随机变量的和也服从正态分布。

  • 二项分布:常用于检查产品合格率、色盲率调查等等

  • 两点分别:比赛胜率估计

  • 泊松分布:常用于一天内到达顾客数、铸件上的砂眼数、一天内电路受到电磁波干扰次数等等

  • 超几何分布:用于进行有限总体中进行不放回抽样。

  • 几何分布:一次伯努利试验中事件 A 首次出现时的试验次数。例如产品不合格率调查。

  • 正态分布:主要应用于统计理论、误差理论等等

  • 指数分布:常用于随即服务系统、寿命估计、排队论等等

多维随机变量

边缘分布(离散和连续):

对于离散型随机向量,行和与列和就是边缘分布。即固定某个xix_ixi​,即可计算边缘分布

pX(xi)=P(X=xi)=∑jmP(X=xi,Y=yj)=∑jmpij=pi⋅,i=1,2,...,npY(yi)=P(Y=yi)=∑imP(X=xi,Y=yj)=∑impij=pj⋅,j=1,2,...,np_X(x_i)=P(X=x_i)=\sum_{j}^{m}P(X=x_i,Y=y_j)=\sum_{j}^{m}p_{ij}=p_{i\cdot},\quad i=1,2,...,n\\ p_Y(y_i)=P(Y=y_i)=\sum_{i}^{m}P(X=x_i,Y=y_j)=\sum_{i}^{m}p_{ij}=p_{j\cdot},\quad j=1,2,...,npX​(xi​)=P(X=xi​)=j∑m​P(X=xi​,Y=yj​)=j∑m​pij​=pi⋅​,i=1,2,...,npY​(yi​)=P(Y=yi​)=i∑m​P(X=xi​,Y=yj​)=i∑m​pij​=pj⋅​,j=1,2,...,n
(X,Y)∼f(x,y)fX(u)=∫−∞+∞f(u,v)dvfY(u)=∫−∞+∞f(u,v)du(X,Y)\sim f(x, y)\\ f_X(u)=\int^{+\infty}_{-\infty}f(u,v)dv\\ f_Y(u)=\int^{+\infty}_{-\infty}f(u,v)du\\(X,Y)∼f(x,y)fX​(u)=∫−∞+∞​f(u,v)dvfY​(u)=∫−∞+∞​f(u,v)du

若随机变量X1,...,XnX_1, ...,X_nX1​,...,Xn​相互独立,则(离散和连续):

P(X1=x1,...,Xn=xn)=P(X1=x1)...P(Xn=xn)P(X_1=x_1,...,X_n=x_n)=P(X_1=x_1)...P(X_n=x_n)P(X1​=x1​,...,Xn​=xn​)=P(X1​=x1​)...P(Xn​=xn​)
f(x1,...,xn)=f1(x1)...fn(xn),∀(x1,...,xn)∈Rnf(x_1,...,x_n)=f_1(x_1)...f_n(x_n),\quad \forall(x_1,...,x_n)\in \R ^nf(x1​,...,xn​)=f1​(x1​)...fn​(xn​),∀(x1​,...,xn​)∈Rn

**注:**二维正态分布N(a,b,σ12,σ22,ρ)N(a,b,\sigma_1^2,\sigma_2^2,\rho )N(a,b,σ12​,σ22​,ρ)的边缘分布密度分别是一维正态分布N(a,σ12)N(a,\sigma_1^2)N(a,σ12​)和N(b,σ22)N(b,\sigma_2^2)N(b,σ22​)。联合分布可推边缘分布,而边缘分布不可推联合分布。

二维正态分布中 X Y 独立的充要条件是 ho=0ho=0ho=0

条件分布(离散和连续):

P(X=xi∣Y=yj)=P(X=xi,Y=yj)P(Y=yj)=pijp⋅j,i=1,2,...P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}=\frac{p_{ij}}{p_{\cdot j}},\quad i=1,2,...P(X=xi​∣Y=yj​)=P(Y=yj​)P(X=xi​,Y=yj​)​=p⋅j​pij​​,i=1,2,...
fX∣Y(x∣y)=f(x,y)fY(y),fY(y)>0.f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}, \quad f_Y(y)>0.\\fX∣Y​(x∣y)=fY​(y)f(x,y)​,fY​(y)>0.

总结:

联合概率是基于两个随机变量及其相互作用的样本空间的概率。边缘概率是多维随机变量的样本空间中,某一个或多个随机变量构成的子空间的概率。

条件=联合边缘条件=\frac{联合}{边缘}条件=边缘联合​

随机变量的函数的概率分布

离散型分布的情形:

设$X$的分布律为P(X=xi)=pi,Y=g(X)P(X=x_i)=p_i,Y=g(X)P(X=xi​)=pi​,Y=g(X),则YYY的分布律为

P(Y=yj)=P(g(X)=yj)=∑xi:g(xi)=yjP(X=xi)=∑i:g(xi)=yjpiP(Y=y_j)=P(g(X)=y_j)=\sum_{x_i:g(x_i)=y_j}P(X=x_i)=\sum_{i:g(x_i)=y_j}p_iP(Y=yj​)=P(g(X)=yj​)=xi​:g(xi​)=yj​∑​P(X=xi​)=i:g(xi​)=yj​∑​pi​

即把Y=g(X1,...,Xn)Y=g(X_1,...,X_n)Y=g(X1​,...,Xn​)可以取的不同值找出来,把与某个值相应的全部(X1,...,Xn)(X_1,...,X_n)(X1​,...,Xn​)值的概率加起来,即得$Y$取这个值的概率。

连续型分布的情形:

XXX有密度函数f(x)f(x)f(x).Y=g(x)Y=g(x)Y=g(x)是一个严格单调的函数,因此其反函数X=h(Y)X=h(Y)X=h(Y)存在。有密度函数l(y)l(y)l(y)为:

l(y)=f(h(y))∣h′(y)∣.l(y)=f(h(y))|h'(y)|.l(y)=f(h(y))∣h′(y)∣.

设(X1,X2)(X_1,X_2)(X1​,X2​)的联合密度函数为f(x1,x2)f(x_1,x_2)f(x1​,x2​),Y=X1+X2Y=X_1+X_2Y=X1​+X2​的密度函数:

l(y)=∫−∞∞f(x1,y−x1)dx1=∫−∞∞f(x,y−x)dxl(y)=\int_{-\infty}^\infty f(x_1,y-x_1)dx_1=\int_{-\infty}^\infty f(x,y-x)dxl(y)=∫−∞∞​f(x1​,y−x1​)dx1​=∫−∞∞​f(x,y−x)dx

若X1,X2X_1,X_2X1​,X2​独立,则

l(y)=∫−∞∞f1(x)f2(y−x)dx=∫−∞∞f1(y−x)f2(x)dxl(y)=\int_{-\infty}^\infty f_1(x)f_2(y-x)dx=\int_{-\infty}^\infty f_1(y-x)f_2(x)dxl(y)=∫−∞∞​f1​(x)f2​(y−x)dx=∫−∞∞​f1​(y−x)f2​(x)dx

随机变量的数字特征

数学期望:

E(X)=∑i=1∞aipiE(X)=\sum^\infty_{i=1}a_ip_iE(X)=i=1∑∞​ai​pi​
E(X)=∫−∞∞xf(x)dxE(X)=\int_{-\infty}^\infty xf(x)dxE(X)=∫−∞∞​xf(x)dx

方差:

D(X)=Var(X)=E(X−EX)2D(X)=Var(X)=E(X-EX)^2D(X)=Var(X)=E(X−EX)2
Var(X)=E(X2)−(EX)2Var(X)=E(X^2)-(EX)^2Var(X)=E(X2)−(EX)2

σ(X)=Var(X)\sigma(X)= \sqrt{Var(X)}σ(X)=Var(X)​称为标准差。

矩:

XXX关于ccc点的kkk阶矩:

E[(X−c)k]E[(X-c)^k]E[(X−c)k]

特别的,kkk阶原点矩(一阶原点矩就是期望):

ak=E(Xk)a_k=E(X^k)ak​=E(Xk)

特别的,kkk阶中心矩(二阶中心距是方差):

μk=E[(X−EX)k]\mu_k=E[(X-EX)^k]μk​=E[(X−EX)k]

协方差:

Cov(X,Y)=E[(X−EX)(Y−EY)]Cov(X,Y)=E[(X-EX)(Y-EY)]Cov(X,Y)=E[(X−EX)(Y−EY)]
Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X,Y)=E(XY)-E(X)E(Y)Cov(X,Y)=E(XY)−E(X)E(Y)
  • 次序无关,即Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)

  • Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)Cov(c_1X+c_2,c_3Y+c_4)=c_1c_3Cov(X,Y)Cov(c1​X+c2​,c3​Y+c4​)=c1​c3​Cov(X,Y)

  • D(X±Y)=D(X)+D(Y)±2Cov(X,Y)D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)D(X±Y)=D(X)+D(Y)±2Cov(X,Y)

  • Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)Cov(X1​+X2​,Y)=Cov(X1​,Y)+Cov(X2​,Y)

协方差大于零,表示这两个随机变量呈正相关关系,若协方差小于零表示两个随机变量呈负相关关系。而协方差等于零表示不“线性相关”。

相关系数:

hoXY=Cov(X,Y)σ1σ2ho_{XY} = \frac{Cov(X,Y)}{\sigma_1\sigma_2}hoXY​=σ1​σ2​Cov(X,Y)​
  • 若X,YX,YX,Y不相关:hoXY=0ho_{XY}=0hoXY​=0,Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y)=0,D(X)D(Y)=0D(X)D(Y)=0D(X)D(Y)=0

相关系数可以看作标准化的协方差,它没有量纲,取值范围在[0, 1]。hoXY=1或−1ho_{XY}=1或-1hoXY​=1或−1时,有严格线性关系。

独立一定不相关,而不相关不一定独立。例如线性不相关的随机变量可能是非线性相关。最常见的例子就是 Logistics 函数或者二次函数,自变量和因变量计算所得相关系数很低,但是是互相依赖的变量。

大数定理和中心极限定理

切比雪夫不等式:即使X分布未知,仍可以对距离期望足够远的地方事件出现的概率做出估计:

P{∣X−μ∣≥ϵ}≤σ2ϵ2P\{ \lvert X - \mu \rvert \geq \epsilon \} \leq \frac{\sigma^2}{\epsilon^2}P{∣X−μ∣≥ϵ}≤ϵ2σ2​

切比雪夫大数定律:说明了对于独立但分布不同的 n 个随机变量,随机变量的平均值约等于总体期望的平均值。

lim⁡n→∞P(∣1n∑k=1nXk−1n∑i=1nE(Xk)∣<ϵ)=1\lim_{n \to \infty}P(\lvert \frac{1}{n} \sum_{k=1}^{n}X_k - \frac{1}{n} \sum_{i=1}^{n}E(X_k) \rvert < \epsilon) =1n→∞lim​P(∣n1​k=1∑n​Xk​−n1​i=1∑n​E(Xk​)∣<ϵ)=1

辛钦大数定理:说明了对于独立同分布且具有均值 a 的 n 个随机变量,当n 很大的时候它们的算术平均值依概率收敛于均值。

lim⁡n→∞P{∣1n∑i=1nξi−a∣<ε}=1\lim_{n\to\infty}P\{|\frac{1}{n}\sum\limits_{i=1}^n\xi_i-a|\lt\varepsilon\}=1n→∞lim​P{∣n1​i=1∑n​ξi​−a∣<ε}=1

伯努利大数定律:表明只要随机试验的次数 n 充分大,那么事件 A 频率和概率的绝对偏差很小,说明在实际应用中,试验次数很大的时候可以用事件的频率来替代事件的概率。

lim⁡n→∞P{∣μnn−p∣<ε}=1\lim_{n\to\infty}P\{|\frac{\mu_n}{n}-p|\lt\varepsilon\}=1n→∞lim​P{∣nμn​​−p∣<ε}=1

独立同分布中心极限定理: 样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值(数学期望)周围,并且呈正态分布。

lim⁡n→∞Fn(x)=lim⁡n→∞P{∑k=1nXk−nμnσ≤x}=Φ(x)\lim_{n \to \infty}F_n(x) = \lim_{n \to \infty}P\{\frac{ \sum_{k = 1}^{n}X_k - n \mu}{\sqrt{n} \sigma} \leq x \} = \Phi(x)n→∞lim​Fn​(x)=n→∞lim​P{n​σ∑k=1n​Xk​−nμ​≤x}=Φ(x)

等价的:

∑k=1nXk∼N(nμ,nσ2)\sum_{k = 1}^{n}X_k\sim N(n\mu,n\sigma^2)k=1∑n​Xk​∼N(nμ,nσ2)

棣莫弗-拉普拉斯中心极限定理:是独立同分布中心极限定理的特殊情况,当Xn∼B(n,p)X_n\sim B(n,p)Xn​∼B(n,p)时:

lim⁡n→∞P{Xn−npnp(1−p)≤x}=Φ(x)\lim_{n \to \infty}P\{\frac{X_n - np}{\sqrt{np(1-p)}} \leq x \} = \Phi(x)n→∞lim​P{np(1−p)​Xn​−np​≤x}=Φ(x)

数理统计基础概念

在一个统计问题里,研究对象的全体叫做总体,构成总体的每个成员称为个体。从总体中随机抽取的部分个体组成的集合称为样本,样本个数称为样本容量。

统计量:不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。

样本均值:

X‾=1n∑i=1nXi\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_iX=n1​i=1∑n​Xi​
E(X‾)=E(X)=μE(\overline{X})=E(X)=\muE(X)=E(X)=μ

样本方差:

S2=1n−1∑i=1n(Xi−X‾)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2S2=n−11​i=1∑n​(Xi​−X)2
E(S2)=D(X)=σ2E(S^2)=D(X)=\sigma^2E(S2)=D(X)=σ2
D(X‾)=1nD(X)=σ2nD(\overline{X})=\frac{1}{n}D(X)=\frac{\sigma^2}{n}D(X)=n1​D(X)=nσ2​

k阶原点矩(样本均值为一阶原点矩):

Ak=1n∑i=1nXikA_k=\frac{1}{n}\sum_{i=1}^{n}X_i^kAk​=n1​i=1∑n​Xik​

k阶中心距(样本方差为二阶中心矩):

Bk=1n∑i=1n(Xi−X‾)kB_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^kBk​=n1​i=1∑n​(Xi​−X)k

常用统计抽样分布

χ2\chi^2χ2分布:

是由正态分布派生出来的一种分布,如果X1,...XnX_1,...X_nX1​,...Xn​都服从标准正态分布,则称随机变量:

χ2=X12+X22+⋅⋅⋅+Xn2\chi^2=X_1^2+X_2^2+···+X_n^2χ2=X12​+X22​+⋅⋅⋅+Xn2​

所服从的分布为自由度为n的χ2\chi^2χ2分布,记为χ2∼χ2(n)\chi^2 \sim \chi^2(n)χ2∼χ2(n)

关于期望和方差,复习一下上面的常见分布表!

  • 可加性:χ12+χ22∼χ2(n1+n2)\chi_1^2 + \chi_2^2 \sim \chi^2(n_1+n_2)χ12​+χ22​∼χ2(n1​+n2​)

  • 上α\alphaα分位点

t分布:

X∼N(0,1),Y∼χ2(n)X \sim N(0,1),Y \sim \chi^2(n)X∼N(0,1),Y∼χ2(n) 且X与Y相互独立,则称随机变量:

T=XY/nT=\frac{X}{\sqrt{Y/n}}T=Y/n​X​

所服从的分布为自由度为n的t分布。记为 T∼t(n)T \sim t(n)T∼t(n)

  • t分布的密度函数关于x=0对称,t1−α(n)=−tα(n)t_{1-\alpha}(n)=-t_{\alpha}(n)t1−α​(n)=−tα​(n)

  • 当n充分大时,其图形类似于标准正态分布密度函数的图形。

F分布:

X与Y相互独立,X∼χ2(n1),Y∼χ2(n2)X \sim \chi^2(n_1),Y \sim \chi^2(n_2)X∼χ2(n1​),Y∼χ2(n2​),则称随机变量:

F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2}F=Y/n2​X/n1​​

服从自由度为n1n_1n1​ 以及n2n_2n2​ 的F分布,记作F∼F(n1,n2) F\sim F(n_1,n_2)F∼F(n1​,n2​)

  • F1−α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}F1−α​(n1​,n2​)=Fα​(n2​,n1​)1​

  • 1F∼F(n2,n1)\frac{1}{F} \sim F(n_2,n_1)F1​∼F(n2​,n1​)

正态总体的抽样分布性质:

X1,...XnX_1,...X_nX1​,...Xn​是来自正态总体N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)的样本,则:

E(X‾)=μ,D(X‾)=σ2/n,E(S2)=σ2,X‾∼N(μ,σ2/n).E(\overline{X})=\mu,\quad D(\overline{X})=\sigma^2/n, \quad E(S^2)=\sigma^2, \quad \overline{X}\sim N(\mu,\sigma^2/n).E(X)=μ,D(X)=σ2/n,E(S2)=σ2,X∼N(μ,σ2/n).

X‾\overline{X}X与S2S^2S2相互独立,且:

(n−1)S2σ2∼χ2(n−1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)σ2(n−1)S2​∼χ2(n−1)
X‾−μS/n∼t(n−1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)S/n​X−μ​∼t(n−1)

X1,...XnX_1,...X_nX1​,...Xn​是来自正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1​,σ12​)的样本,Y1,...YnY_1,...Y_nY1​,...Yn​是来自正态总体N(μ2,σ22)N(\mu_2,\sigma_2^2)N(μ2​,σ22​)的样本,则:

S12/σ12S22/σ22∼F(n1−1,n2−1)\quad \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)S22​/σ22​S12​/σ12​​∼F(n1​−1,n2​−1)
(X‾−Y‾)−(μ1−μ2)Sw1n1+1n2∼t(n1+n2−2)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)Sw​n1​1​+n2​1​​(X−Y)−(μ1​−μ2​)​∼t(n1​+n2​−2)
Sw2=(n1−1)S12+(n2−1)S22n1+n2−2S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}Sw2​=n1​+n2​−2(n1​−1)S12​+(n2​−1)S22​​

参数估计

统计学与概率论的区别就是归纳和演绎,前者通过样本推测总体的分布(似然),而后者已知总体分布去研究样本。因此参数估计则是归纳的过程。

参数估计有两种形式:点估计和区间估计(点估计和区间估计都是对于未知参数的估计,而点估计给出的是一个参数可能的值,区间估计给出的是参数可能在的范围)。

点估计

设X1,...,XnX_1, ..., X_nX1​,...,Xn​是来自总体的样本,用于估计未知参数θ\thetaθ的统计量θ^=θ^(X1,...,Xn)\hat{\theta}=\hat{\theta}(X_1, ..., X_n)θ^=θ^(X1​,...,Xn​)成为θ\thetaθ的估计量,或称为θ\thetaθ的点估计。

无偏估计:E(θ^)=θE(\hat{\theta})=\thetaE(θ^)=θ

更有效的估计:在都为无偏估计的情况下,D(θ^)D(\hat{\theta})D(θ^) 小的更有效

相合估计:经验分布函数逼近真实分布函数,lim⁡n→∞P(∣θ^n−θ∣≥ϵ)=0\lim_{n\rightarrow\infty}P(|\hat{\theta}_n-\theta|\geq\epsilon)=0limn→∞​P(∣θ^n​−θ∣≥ϵ)=0

矩估计法:

矩估计基于大数定律(格里纹科定理),实质是用经验分布函数去替换总体分布,矩估计可以概括为:用样本矩代替总体矩(可以是原点矩也可以是中心矩)

E(Xj)=1n∑i=1nXijE(X^j)=\frac{1}{n}\sum_{i=1}^{n}X_i^jE(Xj)=n1​i=1∑n​Xij​

公式左边是总体结论,公式右边来自样本,几个未知参数列几个方程(尽量使用低阶矩)

最大似然估计:

将样本的联合概率函数看成θ\thetaθ的函数,L(θ)L(\theta)L(θ)称为样本的似然函数:

L(θ)=L(x1,...,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1,...,x_n;\theta)=\prod_{i=1}^n p(x_i;\theta)L(θ)=L(x1​,...,xn​;θ)=i=1∏n​p(xi​;θ)

若统计量θ^=θ^(x1,...,xn)\hat{\theta}=\hat{\theta}(x_1,...,x_n)θ^=θ^(x1​,...,xn​)满足

L(θ^)=max⁡θ∈ΘL(θ)L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta)L(θ^)=θ∈Θmax​L(θ)

则称θ^\hat{\theta}θ^是θ\thetaθ的最大似然估计,简称MLE(maximum likelihood estimate),其中Θ\ThetaΘ表示参数空间。换句话说,想找到一个估计,使已经观测到的事件发生的可能性最大。

最大似然估计步骤:

  • 写出似然函数;

  • 对似然函数取对数,并整理;

  • 求参数向量的偏导,令其为0,得到似然方程;

  • 求解似然方程,其解为参数值。

区间估计

如果:

Pθ(θ^L≤θ≤θ^U)=1−αP_\theta(\hat{\theta}_L\leq\theta\leq\hat{\theta}_U)=1-\alphaPθ​(θ^L​≤θ≤θ^U​)=1−α

称随机区间[θ^L,θ^U][\hat{\theta}_L,\hat{\theta}_U][θ^L​,θ^U​]为θ\thetaθ的置信水平为1−α1-\alpha1−α的置信区间

假设检验

假设检验基于小概率事件,即小概率事件在一次试验中几乎不会发生。

一般步骤:

  1. 给出原假设H0H_0H0​

  2. 选择显著性水平 α\alphaα

  3. 选择检验统计量T,给出拒绝域形式

  4. 求出拒绝域

  5. 统计量T在拒绝域中,则拒绝原假设,否则接受原假设

观测数据情况
总体情况
总体情况

正确

第二类错误(取伪)

第一类错误(拒真)

正确

参考:

参考:

参考:、、

为真

不真

接受

拒绝

H0H_0H0​
H0H_0H0​
H0H_0H0​
H0H_0H0​
概率论与数理统计笔记
概率论常用分布一览表
大数定律与中心极限定理
统计三大分布
样本及抽样分布
正态总体的样本均值与样本方差的分布定理