活的大資料實戰——人群標籤及標籤關聯性挖掘

來源:互聯網
上載者:User

引言——

2013年初,第85屆奧斯卡金像獎頒獎禮在美國好萊塢舉行。 而在頒獎禮之前,微軟紐約研究院經濟學家David· Rothschild通過大資料分析,對此次奧斯卡各獎項的得主進行了預測。 結果顯示,除最佳導演獎有所出入外,其它各獎項全部命中。 這並不是David第一次準確預測,在2012年美國總統大選中,他就曾準確預測了51個選區中50個地區的選舉結果,準確度高於98%。

「大資料」時代的到來,為各個行業利用資料進行預判、分析、優化都起到了至關緊要的作用。 而如何使大資料發揮其根本價值,真的為我們所用,是全世界資料演算法科學家為之奮鬥的技術性難題。

找出資料間的關係——

1980年,托夫勒在《第三次浪潮》中就曾預言:「如果說IBM的主機拉開了資訊化革命的大幕,那麼‘大資料’則是第三次浪潮的華彩樂章」。

在資料呈十萬億億位元組ZB級增長的當下,如何從海量資料中獲取並過濾有價值的關係資訊,是對所有資料從業者而言的一大挑戰。 而如何建立資料間的關係,也是如何使大資料「活」起來的必經之路。

在日常生活中,我們常會發現這樣的情況,在諸如谷歌、百度等搜尋引擎搜索若干關鍵字後,例如「睫毛膏」、「不暈染」、「濃密」、「纖長」等關鍵字,在搜尋結果頁面常會看到睫毛膏的廣告推廣。 似乎,這些搜尋引擎明確知道了我們想要做什麼、我們會對什麼感興趣。

這一切其實並不神奇,這只是演算法科學家通過資料收集、建模、分析之後,將使用者、搜索字、搜索字相關廣告這幾類資料進行了關聯。 所以當我們進行搜索的時候,看到匹配的廣告,就並不難以理解了。

最近,美國的「棱鏡」計畫引起了全世界範圍內的關注,諸如個人隱私等話題被不斷提及。 在一系列爭議之中,隨著IT業巨頭們紛紛被斯諾登拉下水,「大資料」這一個先鋒技術概念再次被拉到聚光燈前。

有人甚至「善意」的對後續前往美國留學的求學者提出建議,在與家人或朋友的電話中多提及諸如「如何用高壓鍋製造炸彈」、「怎麼製造TNT炸藥」等敏感字眼,用來加大美國情報分析機構的工作量。 然而,這種方法真的有效嗎?我看並不盡然。

事實上,沒有規律和結構可言的資料並無任何意義,而美國的資料分析家顯然早已認識到這一點。 僅僅獲取電話錄音、上網足跡等資料、將這些資料彙聚在一起並不足夠,這僅僅完成了「大資料」。 而真正使資料產生價值,只有將這些碎片化的資料進行分析比對,將人們的真實身份、性格、消費習慣、需求等個人資訊還原後,資料才得以「活」起來。

據美國資料分析家所言,僅通過一次電話發生的時間、通話時長、通話的地點這幾條資料,就可判斷出該通話是否存在恐怖襲擊的可能性。 而這,就是通過建立海量的使用者通話資料與恐怖襲擊之間的聯繫後,才得出的分析結論。

可靠的資料模型——

David· Rothschild表示:「我們創建的模型是能夠預測未來的,而不只是過去發生的。 科學是相同的,但證明哪些資料最有用卻存在千差萬別。 」

和傳統由人工進行資料統計及收集的方式,網路時代的資料更多來自機器,利用機器進行自動化的資料抓取及存儲,並批量化導入資料庫用於後續分析及使用。

例如某條街道上記錄車流量的攝像頭,通過24小時的即時監控將道路情況,整理統計並用於後續分析。 而通過攝像頭記錄道路情況,顯然比傳統交警站崗統計違章情況更有效,但同時對於資料的分析要求也就更高。

在大資料時代,隨著資料規模呈指數級增長,對資料進行加工和分析的主角,也由原先統計和分析人員變成了程式師和演算法師。 程式師和演算法師通過建立了無數且複雜的數學模型,並不斷進行優化與調整,找尋出資料間微妙的聯繫,並在各管道中對這些聯繫進行應用。

我們先撇開「棱鏡」計畫這件事情本身是否應該存在的爭議性不談,單純從技術角度來講,「棱鏡」計畫與大資料時代的發展是密不可分的。

誠然,每個個體的行為也許都不盡相同,但都是有規律的。 通過海量資料的獲取與分析,能夠獲得人們的行為習慣的有效資訊,當資訊量累積到足夠的規模之後,科學家們通過建模找尋資料間的聯繫,從而對每個人的個體行為習慣進行推測,並提供分析。 而「棱鏡」計畫正是通過海量資料的收集,建模與分析,找尋到單一個體與諸如「恐怖襲擊」、「隱藏罪案」等事件間的聯繫,並採取相應應對方式的計畫。

當洛杉磯警方通過「棱鏡」計畫所收集到的資料,對幾十年的犯罪記錄進行分析後,預測犯罪行為模式與頻率,從而有針對地安排警力的時候,廣告主也可以通過分析海量客戶的購買行為能夠瞭解客戶,進行有針對的行銷以提升業務, 而易傳媒人群標籤演算法,就是説明廣告主瞭解使用者並提升投放效果的資料分析模型,是「活」的大資料的現實實踐者。

「活」的大資料實踐者——

美國記者華萊士曾經談笑風生地說:「如果它看起來像鴨子,游泳像鴨子,叫聲像鴨子,那麼它可能就是只鴨子。 」

而易傳媒人群標籤演算法,就是説明廣告主找到「鴨子」。

在行銷界,啤酒和尿布的案例一直為人們所熟悉。 普通人可能無法理解,為什麼尿布與啤酒這兩種風馬牛不相及的商品擺在一起,居然使兩者的稍量大幅增加。 原來,媽媽們通經常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。 這個發現為商家帶來了大量的利潤,而在互聯網浩如煙海卻又雜亂無章的資料中,發現類似「啤酒和尿布」之間聯繫,就是人群標籤演算法的核心價值所在。

人群標籤演算法首先根據互聯網的行為屬性將人進行了區隔,隨後分析不同人群之間的共同屬性,建立人群間的聯繫並應用於後續的廣告投放。

這好比某超市門店發現:老張買了2瓶啤酒、4袋花生米。 可是在超市中,瞭解一個又一個老張們的喝酒習慣沒有意義。 門店需要知道的是,有多少個老張?又有多少個喝酒習慣不同的老李?將喝啤酒配花生米的老張與喝幹白葡萄酒配腰果的老李分開,分成不同的客戶群體才有意義。 比如只要知道,在喝酒的100個客戶裡,有30個喝啤酒配花生米的老張,10個喝幹白葡萄酒配腰果的老李,另外有20個老王是喝黃酒配豆腐乾,這就足夠了。 這時就可以知道,啤酒與花生米有關系,幹白葡萄酒與腰果有關系,黃酒與豆腐乾有關系,那麼這些商品可以考慮一起促銷,或者擺放在相近的位置進行陳列。

易傳媒人群標籤演算法,是將互聯網上的「老張」、「老李」、「老王」區分開,並找到他們真正關注的內容,將其標籤化處理後,分析標籤間的關係並進行關聯化投放的演算法。 比如我們發現到把流覽汽車網站作為每天必做事項的老張,也經常搜索「LED電視」,從而對其標記「汽車」與「LED電視」的人群標籤,當發現千千萬萬個「老張」都同時具有「汽車」與「LED電視」標籤的時候, 我們發現這兩個標籤似乎存在某種必然的聯繫,便可對這些「老張」們,投放LED電視的廣告了。 而這在過去,僅憑經驗主義大行其道的時代,汽車與LED電視,便如啤酒與尿布一樣,是風馬牛不相及的兩種東西,是萬萬想不到這兩者之間的聯繫的。

互聯網的海量資料不僅可以提煉歸類並開發成為實用的系統工具,在實際執行中,資料也是無處不在並且可以被擴展化使用的。 而「人群標籤演算法」就是賦予資料活力,使大資料「活」起來的一種典型體現。 人群標籤演算法是通過線上人群行為資料的收集,抽取並標記以產品導向的興趣標籤,經由人群標籤聚類,並對人群進行行為及興趣趨勢分析的流程化演算法。

通過持續的、多管道的、海量的資料收集及管理,易傳媒從線上到線下,從線上到移動,將受眾進行納米級微分,説明廣告主最准找到人、管理人,支援強大的受眾區隔,提供包括26類人口屬性細分、20大類159小類行為興趣細分、 3大類產品行業、數千種行業產品意向細分,共13000多個、3層結構的受眾標籤。

大資料時代,最大的創新就在於,人們可以通過演算法科學家及資料分析師們不斷調整優化的資料模型來解讀大腦無法處理的資料間關係,我們的四周充斥著資料,而我們的生活也被不斷收集資料的電腦引導並優化著。

通過大資料相對理性的分析,結合大腦感性的思維方式,在面對決策和判斷是十字路口,我們會得出性價比更高的結論,得到更高效的解決方案。 而這一切,才是大資料帶給我們的無盡財富和價值。 而易傳媒,在將「活」的大資料運用在互聯網廣告投放這件事情上,也將不遺餘力、不斷前進。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.