Spark 分析網站排名熱度

來源:互聯網
上載者:User

標籤:spark   排名   

需求:

/ 解決是一個各個子模組內的熱度排名--》 排名得用sortBy ---》 (可能就是簡單的排序,或者是二次排序) ---》

// 前面有一個wordCount---》 算出次數出來  --》 考慮什麼作為key


//算的一個網站下面,每個子模組下面的網頁熱度前2名 :

// 算的一個網站下面,每個子模組下面的網頁熱度前2名 --》 每個子模組下面的網頁的次數的前2名


// 在實際開發中,真正代碼時間可能只佔20-30% ,其他時間都在理解需求,想思路

import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}
object Data_anlysis {  def main(args: Array[String]) {    val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]")    val sc = new SparkContext(conf)    val linesRDD = sc.textFile("d://web_data.log")    val rdd01 =linesRDD.map(line => {      val lineSplited = line.split("\t")      (lineSplited(1),1)    })    val rdd02 = rdd01.reduceByKey(_+_)    val rdd03 = rdd02.map(tup => {      val url = tup._1;      val host = new URL(url).getHost      (host,url,tup._2)    })    val rdd04 = rdd03.groupBy(_._1)    val rdd05 = rdd04.mapValues(iter => {      iter.toList.sortBy(_._3).reverse.take(2)    })    println(rdd05.collect().toBuffer)    sc.stop()  }}

運行結果會把網站的日誌資料按照某一模組的要求列出排名前2個結果展示出來。

本文出自 “星月情緣” 部落格,請務必保留此出處http://xuegodxingyue.blog.51cto.com/5989753/1950745

Spark 分析網站排名熱度

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.