網站資料分析:參數估計與置信區間

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

  

我們總是希望能夠從一些樣本資料中去探究資料總體的表現特徵,在網站資料分析中也是如此,我們試圖從最近幾天的資料表現來推測目前網站的整體形勢是怎麼樣的,有沒有變好或者變差的信號,但當前幾天的資料無法完全代表總體, 所以這裡只能使用「估計」。 同時,網站的資料始終存在波動,將最近時間段的資料作為抽樣樣本很可能資料正好處于較低或者較高水準,所以我們用樣本得到的估計值不可能是無偏差的,我們同時需要去評估這個估計值可能的變化區間。

參數估計(Parameter Estimation)是指用樣本的統計量去估計總體參數的方法,包括點估計和區間估計。

點估計

點估計(Point Estimation)是用抽樣得到的樣本統計指標作為總體某個未知參數特徵值的估計,是一種統計推斷方法。

一般對總體參數的估計會包括兩類:一種是用樣本均值去估計總體均值,對應到網站資料中的數值型指標,比如網站每天的UV,我們可以用近一周的日均UV去估計目前網站每天唯一訪客數量的大體情況;另外一種是用樣本概率去估計總體概率, 對應到網站資料中的比率型指標,比如網站的目標轉化率,我們可以用近3天的轉化率去預估網站當天目標轉化的水準;同時我們會計算樣本的標準差來說明樣本均值或者概率的波動幅度的大小,從而估計總體資料的波動情況。

點估計還包括了使用最小平方法對線性回歸做曲線參數的擬合,以及最大似然估計的方法計算樣本集分佈的概率密度函數的參數。

區間估計

區間估計(Interval Estimation)是依據抽取的樣本,根據一定的正確度與精確度的要求,估算總體的未知參數可能的取值區間。 區間估計一般是在一個既定的置信水準下計算得到總體均值或者總體概率的置信區間(Confidence Interval),一般會根據樣本的個數和標準差計算得到總體的標準誤差, 根據點估計中用樣本均值或樣本概率估計總體均值或總體概率,進而得出一個取值的上下臨界點。

我們可以將樣本標準差記作S,如果我們抽樣獲取的有n個樣本,那麼總體的標準差σ就可以用樣本標準差估算得到:

  

從這個公式中我們可以看到大數定理的作用,當樣本個數n越大時,總體指標差σ越小,樣本估計值越接近總體的真實值。 Excel的圖表裡面也提供了添加「誤差線」的功能:

  

有了總體的標準差σ,我們就可以使用區間估計的方法計算總體參數在一定置信水準下的置信區間,置信區間(Confidence Interval)給出了一個總體參數的真實值在一定的概率下會落在怎麼樣的取值區間, 而總體參數落在這個區間的可信程度的這個概率就是置信水準(Confidence Level)。

根據Z統計量的計算公式:

  

假如在1-α的置信水準下,則總體均值μ的置信區間為:

  

這裡樣本均值和標準差都可以根據抽樣的結果計算得到,所以在既定置信水準的條件下,我們只要查Z值表(Z-Score)得到相應的Z值就可以計算得到總體均值的置信區間。 對於置信水準或者叫置信度的選擇,在統計學中一般認為95%的置信度的結果具有統計學意義,但其實在互聯網領域資料的分析中不需要這麼高的置信度,我們有時也會選擇80%或者90%的置信度,相應的Z值見下表:

置信水準1-α 對應Z值Zα/2 95% 1.96 90% 1.65 80% 1.28

對於總體概率的估計,在具備足夠樣本數量的條件下,我們用樣本概率p預估總體概率,而總體概率的標準差則是sqrt(p(1-p)/n),同樣可以計算得到置信區間。

其實這篇文章的內容大部分都可以在統計學書籍或者網上Wiki裡面找到,當然寫到博客裡面不是為了做科普,這裡的每篇「資料分析方法」類目下的文章都是跟相應的網站資料分析的應用文章結合,這篇也不例外,如果你對相關內容感興趣, 請關注後續發佈的文章,或者訂閱我的博客吧。

本文采用 BY-NC-SA 協定,轉載請注明來源:網站資料分析 » 《參數估計與置信區間》

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.