隨著阿裡巴巴的上市,馬雲成為中國首富,貓眼看人裡關於阿裡巴巴的大資料分析的內容層出不窮。 大多是用聳人聽聞的言論,指責阿裡巴巴境外上市導致大資料外泄,影響國家安全,對中國經濟運行造成不可估量的損失。
很多貓友從以往的常識和邏輯方面判斷能夠得出阿裡巴巴的「大資料」並不影響國家安全的結論,但是,對於大資料概念認知比較少,評論起來無從入手。
本文希望用最樸實的語言描述大資料,讓大家能對大資料有基本認識。 同時,後面附大資料統計的應用實例:即通過大資料統計分析網友司馬3忌對韓寒起訴的影響。
所謂資料統計,就是用統計學的方法分析概率和趨勢
由於傳統方法無法對每一個終端樣本詳細取樣,導致很多經濟社交資料只能通過抽樣調查統計。
例如,收視率調查。 電視臺無法得到每戶家庭的收看節目的資料,所以只能抽樣調查。
在網路時代,每一個網路服務提供者不需要做抽樣調查,而是建立龐大的資料庫,記錄一切使用者的行為特徵,用這些特徵作為資料基礎。 這就是大資料,用不同的方式對這些資料進行提取、整理、分析的手段就是大資料分析。
最簡單的例子就是你打開任何一款炒股軟體,它都是基於大資料的。 每檔股票從上市起所有相關數位全部被精准記錄,從無遺漏。
阿裡巴巴的大資料是否會影響國家安全?
個人認為不會,並且大資料無法隱藏。 原因如下:
1.阿裡巴巴的大資料是每種產品的購買記錄,只說明產品的銷量趨勢。
2.每個公司對自己的大資料是企業的核心資產,如美國任何投資者、美國國務院希望獲得阿裡巴巴的大資料,也需要通過法院的批文,即使拿到,企業也有權拒絕。 美國國務院屢次索要使用者資料以便反恐需要都被蘋果拒絕。
3.大資料本身就沒有辦法隱藏,如阿裡巴巴的產品銷售情況是在每一個商品的展示頁面清楚明白的呈現出來。 只要會最簡單的網路及程式設計技術,都可以編寫軟體,借助大型伺服器矩陣,放出無數爬蟲,對每個頁面進行資訊提取和整理,得到大資料。
舉個例子:比如如果想獲得貓眼看人的大資料,用20m光纖寬頻約2天即可完成對整個論壇資料的鏡像保存。
4.如中國政府認為被美國搜集了大資料,一樣可以如前面所述,通過對美國亞馬遜、facebook、推特等進行爬蟲提取搜集資訊得到美國的大資料進行反制。
接下來通過大資料分析 司馬三忌起訴韓寒,對韓寒的影響。
可以看到在10月09日,如紅圈所示,媒體的報導從之前的一平如水,到出現一波小高潮。 韓黑是否覺得有點小激動呢?
嘿嘿,上圖只是9月12日到10月11日的。 我們換個圖,看看最近半年的大資料。
從這張圖就可以看出,司馬三忌起訴韓寒對媒體的影響力。
紅圈1是韓寒的後會無期宣傳期間的媒體報導力度。
紅圈3是司馬三忌起訴的媒體報導力度。
那麼,紅圈2比紅圈3的媒體報導力度更大。
紅圈2是9月11日的媒體報導,那一天韓寒發生了什麼事呢?
看下面的圖就一目了然了:
原來司馬三忌起訴的影響力還不如韓寒老婆生二胎,哈哈!
以上就是對大資料的介紹和分析,以及實例應用。
大資料是個好東西,只要隨便挖掘資料,就可以讓我們對事物的認知突破我們自己視野的局限,起碼不會表現的很愚昧了。
例如很多韓黑認為司馬三忌起訴韓寒,會給韓寒帶來致命打擊。
但大資料就告訴我們,我們的認知是局限在只上貓眼,而大資料採礦整個互聯網,互聯網的大部分媒體關注國民岳父老婆生二胎更多一點。
同樣,大資料也可以有利於作出決策,試著證明如下:
如很多腦殘黑粉所臆想的,關於韓寒代筆的輿論鋪天蓋地,對韓寒造成很大打擊而事實上,通過挖掘資料以韓寒代筆和韓寒 進行分析可以看到, 韓寒代筆的關注度(藍線)始終是一條接近X軸的直線這說明韓寒代筆的質疑的聲音基本沒有變化,不變高 ,也不變低這也揭示了孜孜不倦的「揭示」韓寒代筆的這部分聲音沒有減少,沒有增加而韓寒的關注度隨著他的動向呈現高低起伏。
取韓寒關注度最低的點,關注指數為5720,韓寒代筆的關注指數為132,占總關注比例為2.308%
假如你是韓寒,或者韓寒的經紀公司,那麼,你會得出如下結論:
1.對韓寒代筆的關注度占的比例只有2%
2.質疑韓寒的人是堅決的、持之以恆的,但他們的質疑並沒有擴散。
那麼,你會做如下論斷和決策:
1.你改變不了質疑韓寒的人,他們過去會,未來也會堅持咬定韓寒代筆。
2.上述人群不會變多、也不會變少。
3.你不需要試圖去改變,因為你的試圖的成本和收益不成正比。
4.最好的辦法就是由這些人去質疑吧,因為他們只占2%,相比任何一個明星的anti-fan,都不多。
原文連結:HTTP://club.kdnet.net/dispbbs.asp?id=10423842&boardid=1