最近突然對網站的使用者關係感起了興趣。當然了,萬事萬物都是有原因的,只是有的是直接原因,有的是間接原因;有的原因很明顯,有的原因不明顯;有的原因很容易說清楚,有的原因說不明白。總之一句話,肯定是原因的。
引發這個系列話題的原因是,在我收到的人人或者是校內發送的的推薦關注郵件中,或者是各大微博、SNS社區中的推薦關注與推薦話題中,發現大多和我沒有關係,推薦的準確率不是很高,甚至可以說的比較低,更有甚者,還有一些毫無相關的人和內容推薦過來,我就不明白了,既然沒有就算了吧,為什麼非要有呢?
但是轉念一想,原因可能有以下幾點:
- 有和沒有其實也是需要有個標準的,對於這種標準,又是大家各說各的理,沒有定論,所以結果可想而知了。
- 不好意思沒有東西,顯得網站沒有水平。
- 網站確實沒有盡心儘力,計算出來的東西就沒有那麼精準了。
關於精準其實也是有爭議的,精準的標準是什嗎?大家的理解又不一樣了。還有就是成本和產出比如何控制,想要精準也行,可是網站當前可能沒有那麼多成本去做這件事,或者說做這件事的產出相對成本來說有點低,所以失去了做的意義。
當然了,有一些精準也確實在當前的條件下是不可能實現的。
這件事引發了這個系列,也引發了我對於資料分析的興趣,準確的說是資料分析中的使用者關係分析,也就是在大量資訊中發現使用者的相關性。
以前沒有做過資料分析的工作,技術的積累也不夠,但是感興趣之後,就開始關注這方面的資訊,技術,和文章,做了一些簡單的思考,得出了一些簡單的結論。從今天開始會和大家分享一下我的理解,肯定有不當的地方,或者是比較粗淺的地方,希望大家指出,或者給一些好的資源,也讓我進步進步。
使用者關係分析的好,有很多的應用情境。SNS、微博可以做社會化推薦,電商可以做商品推薦,任何網站都可以利用使用者關係來增加使用者的黏度,增加使用者的忠誠度,做大做強自己的網站,提供更好、更合理的使用體驗,以便於更好的為使用者服務。
今天先說一些簡單的使用者相關性理論和如何確定使用者相關性?
使用者相關性,就是使用者關係的強弱,也可以量化為數值的形式。如果說0是無相關,10是相關性最高的話,1-3屬於若相關,4-7屬於中等相關,8-10屬於強相關。
那麼如何得出兩個使用者之間的相關性呢?最簡單的莫過於利用使用者的基本資料,身高,體重,年齡,愛好等等結構化的資料對兩個使用者之間的相關性進行計算,得出結果。
舉例來說,使用者A的年齡是20,使用者B的年齡是20,在年齡這個維度上面他們的相關性就是10,當然了,這個10在最終的相關性結果中佔多大的比例,還需要為年齡維度設計一個加權值,在綜合各維度時候使用,不是簡單的加和平均。同樣是年齡,除了直接比較意外,還有一些是需要通過計算其他資訊的,例如使用者B沒有年齡,但是有小學畢業時間,根據這個時間也可以推算年齡,然後進入年齡維度比較。
首先會設計很多的維度,每一種維度權重以及加權值,然後通過採集使用者的資訊,進行分析計算。
在實際的應用中,結構化資料畢竟是有限的,很多資訊使用者會由於某些原因,不想填寫,大量資訊的空白,給結構化資料的分析帶來困難,強制填與不填之間,網站也很會糾結一番。
就需要大量利用非結構化資料進行分析計算,包括使用者的留言,話題,回複,喜好,收藏,購買曆史,在這些大量資料的基礎之上使用各種分析手段,使這些資料反映出結構化的結果。
常用的就包括map/reduce這種進來很流行的東西,在分析的過程中還可能會用到語意學的知識,甚至是心理學。
尤其是社會心理學,我認為會起到很重要的作用,而且我認為大多數的SNS和微博在社會心理學方面的研究和應用做的都不太夠,深度不夠才導致推薦的結果差之千裡。不過,想要應用的好,也需要下一番功力的,需要專業的知識,還需要將這些專業的知識轉化為技術。
今天就聊到這裡吧,在以後的日子裡,我會繼續好奇這方面的資訊,繼續和大家分享我的認識,希望大家踴躍拍磚!!!
本文出自 “突破中的IT結構師” 部落格,請務必保留此出處http://virusswb.blog.51cto.com/115214/781267