機率論與數理統計,

來源:互聯網
上載者:User

機率論與數理統計,
1.隨機事件

  確定性現象:在一定條件下必然發生的現象稱為確定性現象;特徵:條件完全決定結果

  隨機現象:在一定條件下可能出現也可能不出現的現象稱為隨機現象;特徵:條件不能完全決定結果。

  隨機現象是通過隨機實驗來研究的。具有以下三個特徵的實驗稱為隨機實驗:

    (1)可以在相同的條件下重複進行;

    (2)每次實驗的可能結果不止一個,並且能事先明確實驗的所有可能結果;

    (3)進行一次實驗之前不能確定哪一個結果會出現。

  樣本空間和樣本點:定義隨機實驗E的所有可能的結果組成的集合稱為E的樣本空間,記為$\Omega$。樣本空間的元素,即實驗E每一個結果,稱為樣本點$\omega$。

  隨機事件:隨機實驗E的樣本空間的子集稱為E的隨機事件。

  對於拋篩子實驗:它的樣本空間是{1,2,3,4,5,6},每一個元素就是樣本點,"大於3的機率"是隨機事件。因此有$\Omega \ge A \omega i$

2.隨機事件的關係

  事件的交:$事件A與事件B同時發生,則稱這樣一個事件為交或者積,記為A\cap B或者AB$;

  事件的並:$事件A與事件B至少有一個發生,也即A和B的所有樣本點構成的集合,稱為並,記為A\cup B$;

  事件的包含: $事件A包含事件B,記為A \supset B$;

  事件的相等:$事件A與事件B相等,記為A=B$

  事件的互斥:$如果事件A與事件B的交集為空白(AB=\phi),則稱A和B互斥$;

  事件的差:$事件A發生而B不發生,記為A-B$;

  事件的對立$如果事件A和B有且僅有一個發生,且他們的並集是整個集合(A\cup B= \Omega,且A\cap B=\phi)$

  隨機事件的獨立性是各種數學模型的基本前提假設

 

2.隨機事件的規律性--機率

 

  頻率的定義:在相同的條件下進行了n次實驗,在這n次實驗中,事件A發生的次數$n_A$稱為事件A發生的頻數,比值$\frac{n_A}{n}$稱為事件A發生的頻率,並記為$f_n(A)$

 

  頻率不是機率

 

  隨機事件A的機率:一般地,在大量重複實驗中,如果事件A發生的頻率m/n會穩定在某個常數p附件,那麼這個常數p就叫做事件A的機率,記做$P(A)=p$

 

  機率的性質:

 

    (1)對於任意事件A,有:$0 \le P(A) \le 1$

    (2)對於必然事件A和不可能事件B,有$P(必然事件)=1$,$P(不可能事件)=0$

    (3)對於兩兩互斥的可數個事件$A_1, A_2, ..., A_n,有P(A_1 \cup A_2 \cup ... \cup A_n) = P(A_1) + P(A_2) + ... + P(A_n) = P(A)$,稱$P(A_n)$為事件A的機率

    (4)$P(\overline A) = 1 - P(A)$

    (5)$A \subset B,則P(A) \ge P(B)$

  事件的獨立性與條件機率:

    設A,B為兩事件,且$P(A)>0$,稱$P(B|A)=\frac{P(AB)}{P(A)}$為事件A發生的條件下事件B發生的條件機率;

    設A,B為兩事件,且滿足公式$P(AB)=P(A)P(B)$,則稱A與B事件獨立。

    設$A_1, A_2, ..., A_n是n個事件$,如果其兩兩互斥,則有$P(A_1 A_2 ... A_n) = P(A_1)P(A_2)...P(A_n)$

  五大公式(極其重要):

    (1)加法公式:

      $P(AUB) = P(A) + P(B) - P(AB)$

      $P(AUBUC) = P(A) + P(B\cup C) - P((A \cap B)U(A \cap C)) = P(A) + P(B) + P(C) - P(BC) -P(AB) - P(BC) + P(ABC) $ 

    (2)減法公式:

      $P(A-B)=P(A) - P(AB)$

    (3)乘法公式:

      $當P(A) > 0時,有P(AB) = P(A) P(B|A)$

      $當P(A_1 A_2 ... A_n)>0時,有P(A_1 A_2 ... A_n) = P(A_1)P(A_2|A_1) ... P(A_n|A_1 A_2 ... A_{n-1})$

    (4)全機率公式[先驗機率公式]:

      設$B_1, B_2, ..., B_n滿足\cup_{i=1}^{n}B_i=\Omega,B_iB_j=\phi(i \neq j)且 P(B_i) > 0$,則對任意事件A有:

                            $P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)$

    (5)貝葉斯公式[後驗機率公式]:

      設$B_1, B_2, ..., B_n滿足\cup_{i=1}^{n}B_i=\Omega,B_iB_j=\phi(i \neq j)且 P(B_i) > 0$,對於$P(A)>0$,有:

                            $P(B_j|A) = \frac{P(b_j)P(A|B_j)}{\sum_{i=1}^{n}P(B_i)P(A|B_i)}$

二、隨機變數及其機率分布1.隨機變數

  定義:在樣本空間$\Omega上的實值函數X=X(\omega),\omega \in \Omega,稱X(\omega)為隨機變數,記為X$

2.分布函數

  定義:對於任意實數x,記函數$F(x)=P\{X \le x\}, -\infty < x < + \infty,稱F(x)為隨機變數X的分布函數,F(x)的值等於隨機變數X在區間(- \infty, x]內取值的機率,即事件"X \le x"的機率$

  顯然地,F(x)具有下列性質:

    (1) $0\le F(x) \le 1$

    (2)$F(x)是單調非減函數,即當x_1<x_2,F(x_1) \le F(x_2)$

    (3)$F(x)是右連續的,即F(x+0)=F(x)$

    (4)$對任意的x_1 < x_2,有P\{x_1 < X < x_2\} = F(x_2) - F(x_1)$

    (5)$對任意的x, P\{X=x\}=F(x) - F(x-0)$

3.離散型隨機變數X的機率分布

  設離散型隨機變數X的可能取值是$x_1, x_2, ..., x_n$,X取各可能的值得機率為 $P\{X=x_k\}=P_k, k=1,2,..$稱上式為離散型隨機變數X的機率分布或分布律

  

 4.連續型隨機變數及其機率分布

  如果對隨機變數X的分布函數$F(x),存在一個非負可積函數f(x),使得對任意函數x,都有F(x)=\lmoustache_{- \infty}^{x}f(t)d(t), -\infty < x < + \infty$,稱X為連續型隨機變數,函數f(x)稱為X的機率密度.

  機率密度函數f(x)的性質:

    (1)$f(x) \ge 0$

    (2)$\lmoustache_{-\infty}^{+\infty}f(x)dx=1$

    (3)$對任意實數x_1 < x_2,有P\{x_1 < X \le x_2\}=\lmoustache_{x_1}^{x_2}f(t)dt$

    (4)$在f(x)的連續點處有F'(x)=f(x)$,如果X是連續型隨機變數,則顯然有$P\{x_1 < X \le x_2\}=P\{x_1 \le X < x_2\}=P\{x_1 < X <x_2\}=P\{x_1 \le X \le x_2\}$

 三.隨機變數的數字特徵1.數學期望:

    離散型隨機變數的數學期望:

      已知隨機變數X的機率分布為$P\{X=x_k\}=P_k, k=1,2,...$,則$E(X)=\sum_{k=1}^{+\infty}x_k P_k$

    連續型隨機變數的數學期望:

      已知隨機變數X的機率密度為$f(x)$,其機率分布為$\int_{-\infty}^{x}f(t)dt$,則$E(X)=\lmoustache_{-\infty}^{+\infty}xf(x)dx$

  數學期望的性質:

    設X是隨機變數,C是常數,則有:$E(CX) = CE(X)$

    設X和Y是任意兩個隨機變數,則有:$E(X \pm Y) = E(X) \pm E(Y)$
    設隨機變數X和Y相互獨立,則有:$E(XY) = E(X)E(Y)$

2.方差:

    設X是隨機變數,如果數學期望$E\{[X - E(x)]^2\}$存在,則稱為X的方差,記作$D(X)$,即$D(X) = E\{[X - E(X)]^2\}$。稱$\sqrt{D(x)}$為隨機變數X的標準差或均方差,記作$\sigma(X)$

    方差計算公式: $D(X) = E(X^2) - [E(X)]^2$

  

 

3.矩、共變數、相關係數

  矩:

    原點矩:設X是隨機變數,如果$E(X)^2$,k=1,2,...存在,則稱之為X的k階原點矩

    中心距:設X是隨機變數,如果$E\{[X - E(X)]^k/\}$存在,則稱之為X的k階中心距

  共變數:

    對於隨機變數X和Y,如果$E\{[X - E(X)][Y - E(Y)]\}$存在,則稱之為X和Y的共變數,記作$cov(X, Y)$即:

            $cov(X, Y)=E\{ [X - E(X)][Y - E(Y)] \}$

    顯然地,$X-E(X)和Y-E(Y)$是兩個標準差的向量表示形式(標準差是內積),它的物理意義是反映了兩個向量的夾角和其模之間的關係。

  相關係數:

    對於隨機變數X和Y,如果$D(X)D(Y) \neq 0,則稱\frac{cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$為X和Y的相關係數,記為$\rho_{XY}$,即:

            $\rho_{XY} = \frac{cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$

    它們之間的關係及推導公式詳見:https://blog.csdn.net/dcrmg/article/details/52416832

四、數理統計的基本概念1.基本概念

  總體:數理統計中所研究對象的某項數量指標X的全體稱為總體。

  樣本:如果$X_1, X_2, ..., X_n$相互獨立且都與總體X同分布,則稱$X_1, X_2, ..., X_n$為來自總體的簡單隨機樣本,n為樣本容量,樣本的具體觀測值$x_1, x_2, ..., x_n$稱為樣本值,或者總體X的n個獨立觀測值。

  統計量:樣本$X_1, X_2, ..., X_n$的不含未知參數的函數$T=T(X_1, X_2, ..., Xn)$稱為統計量。

  

  樣本數字特徵:設$X_1, X_2, ..., X_n$是來自總體X的樣本,則稱:

    (1)樣本均值:

      $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i$

    (2)樣本方差:

      $S^2 = \frac{1}{n-1} \sum_{i-1}^{n}(X_i - \overline{X})^2$,樣本標準差開根號即可;

    (3)樣本k階原點矩:

      $A_k = \frac{1}{n} \sum_{i=1}^{n}X_{i}^{k}, k=1, 2, A_1 = \overline X$

    (4)樣本k階中心距:

      $B_k = \frac{1}{n} \sum_{i=1}^{n}(X_i - \overline X)^k, k=1,2, B_2=\frac{n-1}{n} S^2 \neq S^2$

   樣本資料特徵的性質:

    (1)如果總體X具有數學期望$E(X)=\mu$,則:

      $E(\overline X) = E(X) = \mu$

    備忘:意思是,如果總體X的數學期望存在,那麼它的數學期望就等於樣本的均值,即樣本均值是總體均值的無偏估計量

    (2)如果總體X具有方差$D(X)=\sigma^2$,則:

      $E(\overline X)  = E(S^2)=D(X)=\sigma^2$

    備忘:意思是,如果總體X的方差存在,那麼它的方差除以樣本量就等於樣本的方差,並且樣本方差是總體方差的無偏估計量

    (3)平均偏差:$\frac{\sqrt{|X-u|}}{N}$

    (4)離散係數:標準差與其相應的均值之比,表示為百分數。用於比較兩組資料離散程度[變異程度]的大小

五、參數[抽樣]估計1.理論基礎:

  抽樣估計就是從總體中抽樣,計算樣本均值、方差、成數等參數,以此梯段母體參數的過程。 

  抽樣推斷的理論基礎:

    1.大數定律:頻率以及大量測量值的算術平均值具有穩定性,不受個別測量值的影響。

    2.大量隨機變數和的分布近似於常態分佈。這裡衍生了獨立同分布的各種極限定理。

2.參數估計方法

  點估計

    用樣本$X_1, X_2, ..., X_n$構造的統計量$\hat \theta(X_1, X_2, ... ,X_n)$來估計未知參數$\theta$稱為點估計,統計量$\hat \theta(X_1, X_2, ... ,X_n)$稱為估計量

  無偏估計量:

    設$\hat \theta 是 \theta$的估計量,如果$E(\hat \theta) = \theta$,則稱$\hat \theta = \hat \theta(X_1, X_2, ... ,X_n)$是未知參數$\theta$的無偏估計量。

  一致估計量:

    設$\hat \theta(X_1, X_2, ... ,X_n)$是$\theta$的估計值,如果$\hat \theta$依機率收斂於$\theta$,則稱$\hat \theta(X_1, X_2, ... ,X_n)$是$\theta$的一致估計量。

  **證明樣本均值是總體數學期望的無偏估計量:

    已知:$E(\overline X) = E(X) = \mu$

    推導:$E(X) = E(\frac{1}{n} \sum_{i=1}^{n}X_i) = \frac{1}{n} \sum_{i=1}^{n}E(X_i)=\frac{1}{n} \sum_{i=1}^{n} \mu = \mu$

  **證明樣本方差是總體方差的無偏估計量:

    已知:$E(\overline X)  = E(S^2)=D(X)=\sigma^2$

    推導:$E(S^2) = \frac{1}{n-1} E\{ \sum_{i=1}^{n}[(X_i - \mu) - (\overline X - \mu)]^2 \} = \frac{1}{n-1} E\{ \sum_{i=1}^{n}[(X_i - \mu)^2 - 2(X_i - \mu)(\overline X - \mu) + (\overline X - \mu)^2] \} = \frac{1}{n-1} E[\sum_{i=1}^{n}(X_i - \mu)^2 - n(\overline X - \mu)^2] = \frac{1}{n-1}[\sum_{i=1}^{n}E(X_i - \mu)^2 - nE(\overline X - \mu)^2] = \frac{1}{n-1}[n\sigma^2 - nD(\overline X)] = \sigma^2$

  抽樣平均誤差:$\mu_{\overline x} = \frac{\sigma(X)}{\sqrt{ N}}$

  區間估計:在一定的機率保證程度下,選定一個區間$\delta$,再根據樣本指標數值和$\delta$去估計總體指標數值所在的可能範圍的一種統計推斷方法。

    (1)信賴區間:設$theta是總體X的未知參數,X_1, X_2, ..., X_n是來自總體X的樣本,對於給定的\alpha(0<\alpha<1)$,如果兩個統計量滿足:

      $P{\theta_1 < \theta < \theta_2} = 1 - \alpha$

    則稱隨機區間$(\theta_1, \theta_2)$為參數$\theta$的置信水平(或信賴度)為$1 -

\alpha$的信賴區間(或區間估計),簡稱為$]\theta的1-\alpha的信賴區間,\\theta_1 和 \theta_2分別稱為置信下限和置信上限$

    (2)整理:

      估計區間的上下限:$\Delta_{\overline x},相當於下面第二張表第一行的\frac{\sigma}{\sqrt{n}}Z_{\frac{\alpha}{2}}$

      信賴區間:$[\overline x \pm \Delta_{\overline x}]$

      信賴度$F(t) = P(|\overline x - \overline X| \le t\mu_{\overline x})$

      t稱為機率度,它與信賴度存在分布上的轉換關係,如所示。這裡的$\mu_{\overline x}$就相當於下面第二張表第一行的$\frac{\sigma}{\sqrt{n}}$,也即總體標準差。

      

 

    (3)區間估計的求解過程:

      以下面表中第一行的前提條件為例。

      根據樣本資料計算$\overline x$和$\\frac{sigma}{\sqrt(n)}$;

      根據給定的信賴度查常態分佈表計算機率度

      根據上述公式計算估計區間。

 

  備忘:就是根據大數定律,大量樣本和的分布接近常態分佈,並在常態分佈上繼續構造各種統計量來計算給定信賴度下的均值和方差的信賴區間。

  

3.常用統計抽樣分布和正態總體的抽樣分布

  卡方分布:

    設隨機變數$X_1, X_2, ..., X_n$相互獨立且服從標準常態分佈N(0,1),則稱隨機變數$\chi^2 = X_1^2 + X_2^2 + ... + X_n^2$服從自由度為n的卡方分布,記作$\chi^2 \sim \chi^2(n)$。

    性質:

      $E(\chi^2) = n, D(\chi^2) = 2n$

      設$\chi_1^2 \sim \chi^2(n_1), \chi_2^2 \ sim \chi^2(n_2), 且\chi_1^2和\chi_2^2相互獨立,則\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$。

  t分布:

    設隨機變數X和Y相互獨立,且$X \sim N(0, 1), Y \sim \chi^2(n)$,則稱隨機變數$T = \frac{X}{\sqrt{Y/n}}$服從自由度為n的t分布,記作$T sim t(n)$。

    性質:

      t分布的機率密度是偶函數,和常態分佈的機率密度函數非常相似,當n充分大時,t分布近似標準常態分佈

  F分布:

    設隨機變數X和Y相互獨立,且$X \sim \chi^2(n_1), Y \sim \chi^2(n_2)$,則稱隨機變數$F=\frac{X/n_1}{Y/n_2}$服從自由度為$(n_1, n_2)$的F分布,記作$F \sim F(n_1, n_2)$,其中$n_1和n_2$分別稱為第一自由度和第二自由度。

    性質: 它的導數也是F分布

  統計三劍客的作用:

    顯然地,可以對均值和方差構造新的統計量,使其符合符合上述分布,從而進行區間估計及後面的顯著性檢驗。

    常態分佈一般用於檢驗大樣本量下的連續型資料的分布情況。

    卡方分布用於分類變數的卡方檢驗。F分布多用於方差齊性檢驗。t分布用於小樣本時的總體均值的檢驗。

六、假設檢驗

  假設檢驗依據的統計原理是:小機率事件在一次實驗中是不會發生的,又稱小機率原理。

  假設檢驗的兩類錯誤:第一類錯誤,拒絕實際為真;第二類錯誤,接收實際為假。

  顯著性水平:在假設檢驗中允許犯第一類錯誤的機率,記為$\alpha(0<\alpha<1)$,則$\alpha$稱為顯著性水平,它表現了對假設$H_0$的控製程度,一般$\alpha取0.1, 0.05, 0.01, 0.001$等。

  顯著性檢驗:只控制第一類錯誤機率$\alpha$的統計檢驗,稱為顯著性檢驗。

  顯著性檢驗的一般步驟:

    1)根據問題要求提出原假設$H_0$

    2)給出顯著性水平$\alpha$

    3)確定檢驗統計量及拒絕形式

    4)按犯第一類錯誤的機率等於$\alpha$求出拒絕域W

    5)根據樣本值計算檢驗統計量T的觀測值,當$t \in W$時,拒絕原假設$H_0$,否則,接收原假設$H_0$。

  假設檢驗和區間估計的區別:

    假設檢驗和區間估計過程相反,幾乎可以看作是逆運算。

    區間估計在已知的母體參數和樣本參數的情況下,去估計總體的均值或方差的信賴區間。在上表第一行中,假設知道了樣本均值$\overline x$,樣本量n和總體方差$\sigma^2(也即樣本方差\frac{\sigma^2}{n})$,以及給定的信賴度$1 - \alpha$,並且構造的統計量Z服從標準常態分佈,那麼可以推測總體均值的信賴區間就是上表第一行的信賴區間。

    同樣地,假設檢驗在已知的母體參數和樣本參數的情況下,去估計樣本的均值或方差的信賴區間。在上表第一行中,在給定的顯著性水平$\alpha$以及總體的均值和方差以及樣本量,可以反過來計算上式中的$\overline x$

    因為有$F(t)=P(|\overline x - \mu| < t * z_{\alpha/2})$

    兩者無非是$\overline 和 \mu$的計算而已。假設檢驗的表和上表一致。

  p值:

    簡單理解,也就是機率值,也就是信賴區間的機率密度,也就是顯著性水平$\alpha$。p值一般需要換算成機率度,比如p=0.05,那麼其那麼它的上限就是1 - 0.05 = 0.975,此點的機率密度值對應對應的機率度是1.96。這裡要提醒的是常態分佈函數是一個機率密度函數。所以通常用z值直接計算出機率度,看它是否處在給定的p值的機率度之間。

    Z值:$\frac{\overline x - \mu}{\sqrt{\sigma / n}}$,信賴區間的端點,將p值/顯著性水平。同理其它統計分布。

 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.