高中數學/機率與統計/離散型隨機變量的分佈列及其數字特徵
閱讀指南
[編輯]注意:與先前一樣,本節中用到的組合數符號是沿襲自蘇俄的符號習慣,表示從n個元素中取出k個元素的取法數;如果換成歐美常見的符號,應該改寫為。
預備知識
[編輯]考試要求
[編輯]後續課程聯繫
[編輯]基礎知識
[編輯]知識引入
[編輯]隨機變量與分佈列的概念
[編輯]我們可以將隨機試驗的結果看成一個變量,而相關的機率表達式就是該結果的函數。代表隨機試驗結果的變量就叫做隨機變量(random variable)或譯為隨機變數。 如果隨機變量的可能取值可以按一定的順序一一列出,這樣的變量就叫做離散型(discrete)隨機變量。[1]
提示:(1)隨機變量也被看成是樣本空間(事件集合)的函數,此時仍將其稱為「變量」只是沿襲以前的習慣性稱呼[2]。(2)與我們熟悉的歐氏空間不同,機率論中所說的樣本空間只是一個描述事件集合的數學概念,它可以僅包含離散的點或有限個點[3]。
我們可以通過一個表格列出某個離散型隨機變量所有可能取值及其相應機率,這樣的表格叫做相應隨機變量的機率分佈列(probability distribution series)、機率分佈或簡稱為分佈列[1]。隨機變量常用等字母表示[4]。
離散型隨機變量的機率分佈也可以通過分段函數表達式和圖象展示的方法表示[4]。
提示:希臘文小寫字母ξ的國際音標為[ksɪ],η的國際音標為[i](古希臘語發音)、[ˈiːtə](英式英語發音)或[ˈeɪtə](美式英語發音)。但有的高中教科書只介紹美式讀音[1]。
隨機的變量取值為a的機率,在有的教科書上採用圓括號記為,有的則採用花括號記為。使用哪種記法一般都沒有問題。
回答:這是一個意義不大的問題,但是統計學裏的確有專門的概念描述這種平凡無奇的分佈,它描述的是幾乎確定的事件。這樣的分佈被叫做「單點分佈」或「(一維的)退化分佈」(degenerate distribution)[5]。需要注意的是,由幾何機率模型中的許多例子可知,機率為1的事件並不代表就是必然事件。
伯努利兩點分佈與二項分佈
[編輯]以雅各布·伯努利命名的伯努利試驗(Bernoulli trial)是一種只有2種可能性的試驗,由成功發生的機率p這一個參數唯一確定。[6]
提示:有的機率論教科書上將這類只有2種結果的試驗的重複多次過程定義為伯努利試驗[7]。
提示:如果隨機變量滿足某種機率分佈,那麼我們也說此隨機變量服從這種分佈。
如果隨機變量的取值只有0和1這2個值,此時的機率分佈叫做兩點分佈(two-point distribution)、0-1分佈。由於這種分佈來自於伯努利試驗,它也叫做伯努利分佈,其中隨機變量X取1的機率也被叫做成功機率(probability of success)。[4]
在單次隨機試驗中,某事件可能發生,也可能不發生。在n次獨立重複事件中這個事件發生的次數是一個隨機變量,可記為。根據重複獨立試驗的機率知識,我們知道如果在單次試驗中某事件發生的機率是p,那麼在n次獨立重複事件中這個事件恰好發生k次的機率是[1]:
由於其中的各項剛好是二項展開公式中的各個項對應,所以也將其稱為二項分佈(binomial distribution),記作[1]。並記[1]。沿用伯努利試驗中的術語,其中的機率p仍叫做成功機率[4]。
幾何分佈
[編輯]在獨立重複試驗中,某事件第一次發生時所作試驗的次數也是一個隨機變量,可以記為。例如「」表示在第k次獨立重複試驗時,事件才第一次發生,在之前k - 1次試驗中都沒有發生。如果把第k次試驗時事件E發生記為,不發生記為,且,則有[1]:
容易看出,此時的機率主要是隨p的值呈幾何式變化的。
如果設某個隨機變量代表在獨立重複試驗時第一次發生的機率,那麼它的對應機率分佈就叫做幾何分佈(geometric distribution)。[1]
超幾何分佈
[編輯]在總共含有M件次品的N件產品中任取出n件,其中抽到的次品數記為X,則事件P{X=k}的機率為:
我們將此情形中X的機率分佈叫做超幾何分佈(hypergeometric distribution)。[4]
總體的數學期望
[編輯]如果離散型隨機變量的所有可能取值是,並且取這些值的對應機率分別是,那麼我們將下列的量定義為為的數學期望(mathematical expectation)或簡稱為期望、平均值(mean)[8]:
數學期望的概念起源於著名的點數分配問題。法國文人夏瓦列·德梅爾(Chevalier de Méré,1607年-1684年)曾向布萊茲‧帕斯卡(Blaise Pascal,1623年-1622年)詢問有關在點數分配遊戲中如何實現公平獎勵的古老問題,而帕斯卡在與皮埃爾·德·費馬(Pierre de Fermat,1607年-1665年)的書信討論中逐漸萌生出數學期望的定義。
總體的方差與標準差
[編輯]如果離散型隨機變量的所有可能取值是,並且取這些值的對應機率分別是,那麼我們將下列的量定義為隨機變量的方差(variance)[8]:
隨機變量X的方差有時也記作[10]。隨機變量方差的算術平方根叫做標準差(standard deviation),記作[8]。
方差和標準差都反應了隨機變量取值的波動大小,或者說反應了其分散程度[8]。當均值不為零時,標準差與均值的比值也叫做變異系數(coefficient of variation),是以均值為單位來衡量的隨機變量的偏離情況[11]。
注意:(1)與數學期望的符號相似,和也都不是表示某種乘積。(2)隨機變量的方程公式雖然來源於初中/國中數學中介紹過的原始公式,但是從現在開始,我們要明確區分來自總體數據的方差和來自抽樣數據的方差。之後將會看到,我們可能會為它們規定略為不同的計算公式。
知識背景:另一種更一般化的對總體方差的定義是。[10]
提示:利用公式計算隨機變量的方差比直接利用方差的原始定義更方便。[10]
總體的其它常用統計量
[編輯]其它可以從整體上描述一個機率分佈的常用統計量包括最大值、最小值、極差、中位數、眾數、四分位數、代數平均數(即加權平均數)、幾何平均數以及馬上要介紹的調和平均數。
若a, b > 0,那麼我們定義其調和平均數(harmonic mean)m為。
提示:數學中經常出現的「調和」或譯為「和諧」的概念來自畢達哥拉斯學派的數秘學信仰,參見數學神秘主義。
提示:對於保護無限數量個體的總體,其眾數可以理解為相應機率最大的數。
上述統計量都是從早期的樸素統計方法中借鑑而來的,都被稱為描述機率分佈的數字特徵。機率論與統計學後來在發展中相互促進,又誕生了數理統計學[12]。在數理統計學中,眾數、中位數、多種平均數都能描述數據的某種居中特性,所以都被視為更一般意義上的平均數;極差、方差和標準差則不同程度地刻畫了數據的偏離程度,被稱為變異數或差異數(variance)[13]。更準確地說,平均數和差異數在統計學中都被稱為「矩」(moment)或「動差」,具有一個形式上更統一的表達形式,而且它們正好構成矩的兩大類。我們會在後面的抽樣方法與對總體的估計章節更正式地介紹矩。
計算機技術輔助
[編輯]Mathematica
[編輯]Python
[編輯]補充習題
[編輯]- 羅馬尼亞彩票專家斯特凡-曼德爾(Stefan Mandel)曾藉助數學計算分析彩票勝率,創下中14次頭獎的紀錄。查閱相關資料,了解早期彩票的漏洞以及各個彩票管理機構的應對措施。[14][15][16]
參見
[編輯]參考資料
[編輯]- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 人民教育出版社中學數學室. 第1章「概率與統計」第1部分「隨機變量」第1.1節「離散型隨機變量的分布列」. 數學. 全日制普通高級中學教科書 (選修). 第3冊 (選修2) 1. 中國北京沙灘后街55號: 人民教育出版社. 2004: 4–8. ISBN 7-107-17448-7 (中文(中國大陸)).
- ↑ 李賢平. 第3章「隨機變量與分布函數」中「第三章小結」部分. (編) 李蕊 (策劃編輯); 楊帆 (責任編輯). 概率論基礎. 普通高等教育「十一五」國家級規劃教材. 王超 (責任校對) 3. 中國北京市崇西城區德外大街4號: 高等教育出版社. 2010: 176–177. ISBN 978-7-04-028890-2 (中文(中國大陸)).
- ↑ William Feller. 第1章「樣本空間」第1.5節「離散樣本空間」. (編) 王麗萍. 概率論及其應用. 圖靈數學·統計學叢書 1. 胡迪鶴 (漢譯者) 1 (原書第3版). 中國北京市崇文區夕照寺街14號: 人民郵電出版社. 2006: 14–15. ISBN 978-7-115-14729-5 (中文(中國大陸)).
- ↑ 4.0 4.1 4.2 4.3 4.4 李勇 (本冊主編); 章建躍(作者+責任編輯); 白濤; 張淑梅. 第2章「隨機變量及其分布」第2.1節「離散型隨機變量及其分布列」. (編) 劉紹學 (主編); 錢珮玲 (副主編); 張唯一 (責任編輯). 高中數學 (A版) 選修2-3 2. 中國北京市海淀區中關村南大街17號院1號樓: 人民教育出版社. 2006: 44–49. ISBN 978-7-107-20171-4 (中文(中國大陸)).
- ↑ 李賢平. 第3章「隨機變量與分布函數」第3.1節「隨機變量及其分布」中「三、離散型隨機變量」部分. (編) 李蕊 (策劃編輯); 楊帆 (責任編輯). 概率論基礎. 普通高等教育「十一五」國家級規劃教材. 王超 (責任校對) 3. 中國北京市崇西城區德外大街4號: 高等教育出版社. 2010: 122–127. ISBN 978-7-04-028890-2 (中文(中國大陸)).
- ↑ William Feller. 第6章「二項分布與泊松分布」第6.1節「伯努利試驗序列」. (編) 王麗萍. 概率論及其應用. 圖靈數學·統計學叢書 1. 胡迪鶴 (漢譯者) 1 (原書第3版). 中國北京市崇文區夕照寺街14號: 人民郵電出版社. 2006: 112–113. ISBN 978-7-115-14729-5 (中文(中國大陸)).
- ↑ 王梓坤. 第2章「隨機變數與它的分布」第2.3節「二項分布與貝努里試驗」中「(一)二項分布」部分和「(二)貝努里試驗」部分. (編) 岳昌慶 (責任編輯); 李菡 (責任校對). 概率論基礎及其應用. 新世紀高等學校教材·數學及應用數學專業主幹課程系列教材. 賴德勝 (出版人) 3. 中國北京市新街口外大街19號: 北京師範大學出版社. 2007: 61–65. ISBN 978-7-303-03632-5 (中文(中國大陸)).
- ↑ 8.0 8.1 8.2 8.3 8.4 8.5 人民教育出版社中學數學室. 第1章「隨機變量」第1部分「隨機變量」第1.1節「離散型隨機變量的分布列」. 數學. 全日制普通高級中學教科書 (選修). 第3冊 (選修2) 1. 中國北京沙灘后街55號: 人民教育出版社. 2004: 9–16. ISBN 7-107-17448-7 (中文(中國大陸)).
- ↑ 9.0 9.1 9.2 9.3 9.4 9.5 李勇 (本冊主編); 章建躍(作者+責任編輯); 白濤; 張淑梅. 第2章「隨機變量及其分布」第2.2節「離散型隨機變量的均值與方差」. (編) 劉紹學 (主編); 錢珮玲 (副主編); 張唯一 (責任編輯). 高中數學 (A版) 選修2-3 2. 中國北京市海淀區中關村南大街17號院1號樓: 人民教育出版社. 2006: 61–68. ISBN 978-7-107-20171-4 (中文(中國大陸)).
- ↑ 10.0 10.1 10.2 10.3 10.4 10.5 陳希孺. 第3章「隨機變量的數字特徵」第3.2節「方差與矩」第3.2.1小節「方差和標準差」. 概率論與數理統計 1. 中國科學技術大學出版社. 1992: 175–179. ISBN 9787312003493 (中文(中國大陸)).
- ↑ 陳希孺. 第4章「參數估計」第4.2節「矩估計、極大似然估計和貝葉斯估計」第4.2.2小節「矩估計法」. 概率論與數理統計 1. 中國科學技術大學出版社. 1992: 159–162. ISBN 9787312003493 (中文(中國大陸)).
- ↑ 李賢平. 第1章「事件與概率」第1.1節「隨機現象與統計規律性」中「四、概率論簡史」部分. (編) 李蕊 (策劃編輯); 楊帆 (責任編輯). 概率論基礎. 普通高等教育「十一五」國家級規劃教材. 王超 (責任校對) 3. 中國北京市崇西城區德外大街4號: 高等教育出版社. 2010: 8–9. ISBN 978-7-04-028890-2 (中文(中國大陸)).
- ↑ 李春喜; 邵雲; 姜麗娜. 第2章「試驗資料的整理與特徵數的計算」第2.2節「試驗資料特徵數的計算」中「一、平均數」部分和「二、變異數」部分. 生物統計學. 普通高等教育「十一五」國家級規劃教材 4. 中國北京東黃城根北街16號: 科學出版社. 2008: 16–22. ISBN 978-7-03-021573-4 (中文(中國大陸)).
- ↑ (英文)6-Step Formula Used By Stefan Mandel and Why It Won’t Work Now!.TheLotteryLab(2019年5月9日).
- ↑ (簡體中文)數學家連中14次彩票頭彩,逼得兩國修改法律,他發現一個萬能公式.人物誌; 環球科學; 長春晚報(2018年9月26日).
- ↑ (簡體中文)小桐(2020年2月5日).鬼才利用彩票漏洞獲利億元 流亡18年寫出新算法.新浪彩票.