数理统计/随机样本与统计量
外观
< 数理统计
数理统计/随机样本与统计量
[编辑]学习目标
[编辑]| 目标项 | 内容 |
|---|---|
| 随机样本的定义 | 独立同分布样本、样本路径、样本空间 |
| 统计量概念 | 仅由样本构成、无未知参数 |
| 抽样分布 | 样本均值、样本方差、比率与差的分布 |
| 侧重能力 | 说明 |
|---|---|
| 构造统计量 | 针对目标参数设计合适统计量 |
| 推导分布 | 运用变换与独立性求抽样分布 |
| 近似与极限定理 | 大样本下的正态近似与t近似 |
| 常见误区 | 对策 |
|---|---|
| 把含未知参数的量当统计量 | 检查是否仅含样本 |
| 忽略自由度 | 样本方差分母应为 |
| 误用正态近似 | 明确样本量与条件是否满足 |
基本定义
[编辑]- 随机样本
- 为来自同一分布 的独立同分布变量,称为大小为 的随机样本。
- 统计量
- 由样本 构成、不含未知参数的函数 。
- 常见统计量
- 样本均值 ;样本方差 ;样本中位数、样本分位数等。
| 概念 | 数学表达 | 说明 |
|---|---|---|
| 随机样本 | 相互独立且同分布 | |
| 统计量 | 不含未知参数 | |
| 样本均值 | 集中趋势 |
| 量 | 定义 | 备注 |
|---|---|---|
| 样本方差 | 无偏性更好 | |
| 样本标准差 | 尺度与原量一致 | |
| k分位数 | 使得比例为k的数值 | 用顺序统计量定义 |
| 判断 | 是统计量? | 原因 |
|---|---|---|
| 是 | 仅由样本构成 | |
| 是 | 仅由样本构成 | |
| 否 | 含未知参数 |
顺序统计量
[编辑]- 定义
- 将样本从小到大排序得 ,称为顺序统计量。
- 典型量
- 最小值 ,最大值 ,中位数 。
| 顺序统计量 | 含义 | 应用 |
|---|---|---|
| 最小值 | 可靠性、极端事件 | |
| 最大值 | 阈值设定 | |
| 中位数 | 居中位置 | 抗异常值 |
| 关系 | 形式 | 说明 |
|---|---|---|
| 极差 | 离散程度粗指标 | |
| 四分位距 | 稳健尺度 | |
| 分位函数 | 分布特征 |
| 注意点 | 影响 |
|---|---|
| 样本量小 | 分位数波动大 |
| 重复值多 | 排序并列处理 |
| 偏态分布 | 中位数优于均值 |
样本均值与样本方差
[编辑]- 均值的期望与方差
- 若 ,则 ,。
- 方差的无偏性
- 。
| 量 | 期望 | 方差 | 备注 |
|---|---|---|---|
| 集中性随 增强 | |||
| 依赖四阶矩 | 无偏估计 | ||
| 略有偏 | 复杂 | 常用作尺度 |
| 场景 | 近似 | 条件 |
|---|---|---|
| 大样本 | 近似正态 | 中心极限定理 |
| 正态母体 | 正态、 | 独立同分布正态 |
| 不确定方差 | 用t分布 | 方差未知 |
| 实操要点 | 说明 |
|---|---|
| 报告均值±标准误 | 标准误为 |
| 同时给出中位数 | 抗异常值 |
| 作图检查 | 直方图、箱线图 |
抽样分布(正态母体情形)
[编辑]- 设 独立同分布。
- 则 ;;且 与 相互独立。
- 构造 。
| 统计量 | 分布 | 自由度/参数 |
|---|---|---|
| 正态 | 均值 ,方差 | |
| 卡方 | ||
| t |
| 结论 | 用途 | 备注 |
|---|---|---|
| 与 独立 | 推导t分布 | 正态下的特性 |
| t分布较肥尾 | 小样本更稳健 | 自由度越大越接近正态 |
| 卡方分布可构造区间 | 方差区间估计 | 依赖正态假设 |
| 检查条件 | 否则改用 |
|---|---|
| 正态性 | 非参数或变换 |
| 独立性 | 分组或建模相关性 |
| 无异常值 | 稳健统计量 |
比例与差值的统计量
[编辑]- 比例
- 设 为成败变量,成功概率为 ,样本比例 ,有 ,。
- 两独立样本均值差
- 的期望为 ,方差为 (独立)。
| 统计量 | 期望 | 方差 | 近似分布 |
|---|---|---|---|
| 大样本正态 | |||
| 条件满足时正态或t | |||
| 两比例差 | 正态近似 |
| 情形 | 标准误 | 说明 |
|---|---|---|
| 单比例 | 正态近似时使用 | |
| 两均值(方差相等) | 合并方差 | t检验框架 |
| 两均值(方差不等) | Welch 标准误 | 自由度调整 |
| 注意点 | 处理 | |
|---|---|---|
| 比例极端 | 正态近似差 | 用精确方法或变换 |
| 样本不独立 | 配对设计 | 用差值法 |
| 方差异质 | 使用稳健或Welch方法 | 避免错误结论 |
例子:以“挖矿掉率”为背景的小练习
[编辑]- 场景
- 某资源块掉落稀有物的概率为 。独立挖掘 次,得到的稀有物个数 ,样本比例 作为 的估计。
| 量 | 表达式 | 期望/方差 |
|---|---|---|
| 计数 | , | |
| 比例 | , | |
| 标准误 | 估计不确定性 |
| 近似条件 | 经验规则 | 说明 |
|---|---|---|
| 正态近似 | 且 | 两端不极端 |
| 小样本 | 精确方法 | 二项精确 |
| 相关性 | 不满足独立 | 需调整 |
| 输出 | 解释 |
|---|---|
| 点估计 | 直观频率 |
| 区间估计 | 覆盖真实概率 |
| 置信水平 | 覆盖率声明 |
章节测验
[编辑]- 单选题一
- 问:下列哪一个是统计量?
显示答案/解析
答案:。其余含未知参数或直接为总体参数。
- 单选题二
- 问:样本方差 的分母取 的主要目的是什么?
- 计算方便
- 使其为总体方差的无偏估计
- 使其更小
- 与标准差配套
显示答案/解析
答案:使其为总体方差的无偏估计。
- 判断题
- 断言:正态母体下, 与 独立。
- 对
- 错
显示答案/解析
答案:对。这一性质用于构造t分布。
- 计算小问(可选)
- 已知独立样本量 ,观测到 ,给出比例的标准误。
显示答案/解析
标准误 。
跨章导航
[编辑]| 跳转 | 页面 |
|---|---|
| 上一节 | 概率论复习 |
| 下一节 | 点估计 |
| 返回目录 | 目录 |