跳转到内容

数理统计/前言

维基教科书,自由的教学读本

数理统计/前言

[编辑]

本书目标

[编辑]

本书旨在系统梳理数理统计的核心概念、方法与应用路径,强调从概率到统计推断的逻辑链条,帮助读者在实践中正确选择与解释统计方法。

适用读者

[编辑]
  • 已具备基础概率论知识的读者
  • 希望将统计推断用于工程、数据科学、自然科学研究的学习者
  • 需要统一复习统计学理论脉络的准备者

学习路径导航

[编辑]
路径节点 关键主题 目标能力
概率论复习 分布、矩、极限定理 从样本到总体的概率连接
样本与统计量 随机样本、统计量、抽样分布 认识估计对象与工具
点估计与区间估计 不偏性、有效性、置信区间 构造与评估估计
假设检验 Neyman–Pearson 范式、p 值、功效 决策与错误控制
似然与贝叶斯 MLE、似然比、先验与后验 两大推断范式与比较
线性模型与方差分析 正态线性模型、ANOVA 建模与方差分解
非参数与重抽样 秩检验、Bootstrap 弱分布假设与计算推断
高维与正则化 Lasso、岭回归、信息准则 复杂模型与选择
时间序列/生存分析 相关结构、截尾与风险 特殊数据结构推断

关键理念

[编辑]
核心理念 简述
模型与数据的匹配 统计推断依赖于模型假设;假设越强,结论越敏感
不确定性的度量 置信区间、标准误、后验分布都是不确定性的表达
可重复性与稳健性 抽样波动是常态;估计与检验需要稳健策略
可解释性优先 结果报告应包含方法、假设、限制以及效应量

名词速览

[编辑]
总体
研究对象的全体,统计推断的目标指向。
样本
从总体抽取的观测集合,是推断的依据。
统计量
样本的函数,用于估计、检验或描述。
估计量
用于近似总体参数的统计量。
置信区间
以概率方式刻画参数不确定性的区间估计。
p 值
在原假设为真时,观察到至少同等极端数据的概率。

为什么“概率”先行

[编辑]

在统计推断中,概率论提供了从随机机制到分布结果的映射:只有理解抽样的随机性与极限定理,才能解释估计的波动、置信区间的频率含义,以及检验中的第一类与第二类错误。概率是统计的语言,模型是假设的容器。

方法选择总览

[编辑]
场景 典型方法 关键假设 输出要点
小样本、近正态 t 检验/正态区间估计 近似正态、方差同质 均值差异、区间与p值
非正态/秩稳健 Wilcoxon/秩和检验 连续分布、对称性(可选) 位置差异的秩度量
多组均值比较 单因素ANOVA 组内正态、方差同质 组间方差分解与多重比较
高维特征选择 岭/Lasso 线性可加、惩罚项 稳定预测与可解释稀疏性
分布未知的区间 Bootstrap 可重抽样、样本代表性 经验分布下的标准误与区间

常见误区

[编辑]
  • 仅报告 p 值,而忽略效应量与区间
  • 将非显著误判为无效应
  • 将置信区间误解为参数的概率区间
  • 忽视模型设定与诊断,过度依赖默认方法

全书结构

[编辑]
  • 概率论复习
  • 随机样本与统计量
  • 点估计、区间估计
  • 假设检验基础
  • 似然方法与MLE
  • 贝叶斯方法
  • 非参数方法
  • 线性模型与方差分析
  • 回归诊断与模型选择
  • 重抽样方法
  • 高维与正则化
  • 时间序列入门
  • 生存分析与打分检验
  • 参考文献

跨章导航

[编辑]