標籤:
大資料是物理世界在網路世界的映射,是一場人類空前的網路畫像運動。網路世界與物理世界不是孤立的,網路世界是物理世界層次的反映。資料是無縫串連網路世界與物理世界的DNA。探索資料DNA、重組資料DNA是人類不斷認識、探索、實踐大資料的持續過程。
圖1 大資料發展路徑
陳新河把網路畫像分為行為畫像、健康畫像、企業信用畫像、個人信用畫像、靜態產品畫像、旋轉裝置畫像、社會畫像和經濟畫像等八類,並通過實踐案例進行了闡釋。
未來,人生的每個曆程無時無刻不由資料驅動。
圖2 資料驅動人生
未來,裝置全生命週期也將由資料驅動。
圖3 資料驅動汽車全生命週期(海略諮詢)
劉譯璟博士首先從百分點Recommendation Engine開始,深入探討了四大引擎。
情境引擎:個人化的核心,判斷使用者處於哪個購物環節,有什麼樣的購物目標;
規則引擎:業務的核心,結合使用者、情境、演算法輸出資料和業務KPI,決定為使用者推薦哪些內容;
演算法引擎:計算使用者之間的相似性、商品之間的相似性、使用者對商品的評分、使用者分群、熱門排行……
展示引擎:將推薦內容以最佳的展示方式呈現在使用者面前。
Recommendation Engine的核心是將購物流程資料化,而其前提是將使用者資料化。如何將使用者資料化呢?就是使用者畫像。
劉譯璟博士用幾個生活中畫像的例子生動地闡釋了什麼是使用者畫像。
使用者畫像的目標、方式、組織、標準和驗證等幾個特點。
他認為使用者側寫可能更加準確的描述“使用者畫像”這個詞,因為我們是通過有限的資訊來描述一個人,而非通過全息相機照相的模式來描述一個人。
從技術角度來看,人在網路空間是一個位元流,人們認識人的方式發生重大改變,由物理空間的“相面”轉變為網路空間位元流解析,更重要的是教會機器按照人類交給他的規則從這些位元流進行自動識別。能夠從千萬計的使用者中找出金融詐騙者、恐怖分子等。
如何?這一過程?這就需要一種類似成像技術中的像素來對人的特徵進行刻畫,這就是畫像中的標籤。
大資料使用者畫像其實就是對現實使用者做的一個數學模型,在整個數學模型中,其核心是,怎麼描述業務知識體系,而這個業務知識體系就是本體論,本體論很複雜,我們找到了一個特別樸素的實現,就是標籤。建好模型以後,要在業務的實踐中去檢驗,並且不斷完善,不斷豐富這個模型,來達到利用位元流對人越來越精確的理解。使用者畫像不是一個數學遊戲,不是一個技術問題,實際上是一個業務問題。因為最核心的是你去如何理解使用者,瞭解你的使用者。它是技術與業務最佳的結合點,也是一個現實跟資料的最佳實務。
李海峰分享了百分點在使用者畫像方面的實踐和案例。
他首先以自己為例分享了畫像範例。基於他這個人可以知道他所在的城市是在北京,男性,公司在百分點,喜歡的品類是男鞋、運動鞋,喜歡的品牌有耐克、阿迪達斯等等。每一個標籤都有一個權重值。可以看到,耐克的權重值比阿迪達斯更高一些。
這幅圖是通過雲圖的方式對百分點創始人/董事長兼CEO蘇萌進行的特徵畫像。
百分點的畫像標籤體系包括:人口屬性、上網特徵、營銷特徵、內容偏好、興趣偏好等。
以手機商品屬性為例,包括品牌、品類、型號、上市時間、價格、顏色、網路、作業系統、解析度、螢幕尺寸等等。
標籤管理體系具有如下特性。
有多種標識方式對使用者進行識別,這就像社會生活中的社會安全號碼碼一樣,只不過換成了網路空間的手機號、Cookie、IMEI、Email、微博、帳號等,在處理過程中,這些資訊都是加密的,機器知道但人不知道。
百分點使用者畫像邏輯架構如所示,通過對電商、社區、行動裝置 App、微博、等多種類別的資料來源進行採集,然後對使用者進行畫像,最終在個人化推薦、使用者洞察、精準營銷等方面進行應用。百分點的資料來源多且龐大,服務的客戶超過了1500多家,覆蓋行業超過了40多個。舉例來說,一個網民,他在訪問一個電商A,同時又訪問了一個電商B,這兩個電商本身的知識體系是不一樣的。比如說這個使用者他訪問一雙鞋,他在電商A上的品類可能是鞋-男鞋-運動鞋,在網站B上可能是運動-戶外-男鞋,品類描述可能是不一樣的。所以百分點打造了這麼一個系統,叫商品畫像系統。通過這個系統,所有的標籤就有了一個標籤規劃,之後就可以去構建這個使用者在全網的使用者畫像標籤。使用者畫像只是一個起點,而不是一個結束。基於此,還可以打造一系列的服務,比如精準營銷、個人化推薦等。
是使用者畫像的技術架構圖。我們可以看到總共分為五層:第一是資料來源;第二層是資料擷取服務,百分點有一堆資料擷取服務,包括我們的資料探頭,能夠對使用者的行為進行一個即時採集;第三層是資料預先處理,主要是結構化;第四層是商品畫像,這一塊都是我們的使用者畫像服務。我們可以看到使用者畫像是分兩大塊,即時處理更偏重於預測使用者畫像的需求,離線處理更偏重於使用者的長期偏好;第五是統一的資料介面,還有就是叢集,上面可以接入各種各樣的應用。
是使用者標籤產出流程樣本。
使用者在互連網上的行為主要分為電商類、社交類和媒體類。每種行為差異很大,電商類行為包括瀏覽、搜尋、添加購物車、收藏、支付等,而社交類則是點贊、轉寄、評論等。
接著下一步需要對頁面標籤進行抽取,在做這件事情之前需要訓練模型,首先準備訓練資料,通過標註和規則產生,再就是對於序列集做一個序列化處理。首先會得到一個弱模型,最終得到一個強模型,然後把自己的參數都保留下來。這個時候我們會加一個決策,如果說效果不太好的話,我們會進行下一輪的最佳化。當這個模型設定之後,我們就可以去做預測了。我們的預測總共分為四大塊,包括輸入、輸入預先處理、預測和產出。也就是說使用者這個標籤已經有了,這個標籤對使用者的信譽度是1還是0?這個時候就到了使用者行為建模。使用者行為建模的背後思想主要可以認為有兩大塊,成本越高行為權重越高,下單就比瀏覽更高一些,時間越近的行為權重越高,比如我今天看了一個手機,一定比我一周前看了一次電腦權重要高一些。我們可以按情境去分,首先是產生需求,再就是決策,然後是結束,百分點基於業務考慮,實列標籤權重積累的機制。
這是我們的客戶某航空公司的案例,項目目的是挖掘高價值旅客,希望通過分析旅客出行偏好最佳化運力資源。最終百分點幫他構建了5個標籤大類,75個標籤小類,數萬個小標籤,以下是當時的一些效果。
剛才講的都是百分點已經做的事情,但是百分點做得還遠遠不夠。接下來可能會在四大方面深入思考和實踐:一是不同的情境,也就是說使用者在家裡和在辦公環境下代表的偏好是不一樣的;二是使用者心理學特徵,比如當一個使用者看一件女裝的時候,她這個時候是無聊去逛還是有目的的逛,反映在標籤權重上是不一樣的;三是讓使用者主動反饋反感點,我們強調了許多,一般都是在強調使用者喜歡什麼,但是使用者不喜歡什麼,我們做得還不夠,我們應該讓使用者主動告訴我們他不喜歡什麼,比如他不喜歡吃蔥,他不喜歡吃羊肉串,這樣我們預測的時候會准得多;四是使用者的興趣轉移快速捕獲,一開始我們使用的是一個半衰期的,而且按頻率細分,我們是否可以按人去分?比如按訪次去分?比如針對品類手機這個標籤,對於手機發燒友,可能過了一年他依然會對手機比較感興趣,但是對於像我這種,只有想購買的時候才去看,可能我兩天不看,就表示這個興趣已經衰減為零了。
文章出處:http://www.199it.com/archives/337393.html
大資料時代下的使用者洞察:使用者畫像建立(ppt版)