互連網日誌分析技術及分析指標

最後更新：2018-07-26 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

1. 日誌分析必要性

互連網的發展，將產生大量的Web日誌或者移動端日誌，日誌中包含非常豐富的使用者各類資訊。通過解析分析挖掘此類資訊，將產生相應的資料價值。一般中型網站(10w pv以上)，每天將產生1G以上的Web日誌。大型網站或超大型網址，可能每小時會產生500GB至1TB的資料。

Web日誌主要是Web伺服器產生，現在公司主流的伺服器是Nginx，Apache，Tomcat等。 1.1 日誌格式

目前常見的Web日誌格式主要兩類：

    1. Apache 的NCSA日誌格式    2. ISS 的W3C日誌。

1.2 傳統單機日誌資料分析

    1. linux shell 單機日誌分析    2. python 單機日誌分析

1.3大規模分布式日誌分析

當日誌以每日10GB，100GB增長時，單機則早已不能滿足，此時需要大資料分析和並行計算來解決。

spark未出現之前：海量的資料存放區和日誌分析基於Hadoop和Hive等資料分析系統的。

spark出現後：全棧資料分析更加容易。sparkSQL處理離線的數；sparkStreaming處理即時資料。 2. 日誌分析指標

由於資料的重要性越來越高，資料化運營對互連網公司的利益影響也非常明顯。 2.1網站運營日誌分析常用指標 2.1.1 PV (Page View) 網站頁面訪問數，網站流量 2.1.2 UV (Unique Visitor) 頁面IP訪問量統計，訪問使用者數，獨立IP 2.1.3 PVUV (Page View Per User) 平均每位使用者訪問頁面數 2.1.4 漏鬥模型與轉化率

漏鬥模型定義：不同事件按照一定依賴順序觸發的流程中的轉化模型。 1.商品詳情頁 –> 2.加入購物車 –> 3.生產訂單 –> 4.支付訂單 –> 5.交易完成

轉化率定義：當完成當前事件的使用者觸發下一個依賴事件的使用者所佔比例。 2.1.5 留存率

使用者在某段時間內開始的應用，經過一段時間後，仍然在繼續使用這個應用被認為是留存。 ==這部分使用者佔新增使用者的比例==就是留存率。 2.1.6 使用者屬性

使用者基本屬性和行為特徵，打標籤後，協助產品進一步營銷推薦。 2.2 終極目標使用介面展示

中大型公司，都會自己開發的一套DMP(data manage platform)資料管理平台。當然也可以借鑒使用tableau。

PS：文章主要摘自Spark大資料分析實戰–Lamda架構日誌分析流水線

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

互連網日誌分析技術及分析指標

聯繫我們

熱門內容

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

互連網日誌分析技術及分析指標

聯繫我們

熱門內容

熱門主題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support