標籤:
前兩篇文章介紹了我們在使用者移動規律的理解方面的研究工作,包括如何處理使用者軌跡中的缺失資料以及如何為使用者推薦感興趣的位置。在這一部分,我將展示我們在使用者特徵研究方面的研究項目。
LifeSpec
首先,我想介紹我們近期開展的LifeSpec項目。這個項目的目標是利用社交網路中的使用者資料來探索城市生活的方方面面。
我們從多個社交網路收集了資料,包括街旁,微博,圖書和電影評論網站豆瓣,以及著名的餐館評論網網站評。我們收集的資料覆蓋了超過140萬使用者,這些使用者在我們的資料集中至少有兩個帳號。
右邊這幅圖展示了有多個帳號的使用者的比例。可以看到,我們的資料集中的所有使用者都至少有兩個帳號。實際上,這是資料集收集的一項要求。資料集中約有40%的使用者至少有三個帳號。
從社交網路中,我們收集了不同類型的使用者足跡,包括推特訊息、照片、簽到、電影、圖書、音樂、線下事件、線上購物曆史等。由於使用者可能在其中部分社交網路中分享畫像,因此我們可以從不同網站獲得公開的使用者畫像,包括年齡、性別、關係、職業、大學、高中等。我們共收集了5300萬條足跡。足跡包括簽到、電影和音樂評論、事件和圖書評論等。我們還有300萬條使用者的社交關係。足跡中約有3900萬條簽到資料。這意味著足跡大部分都是位置簽到。所以,位置是我們的資料集中的一類重要資料。我們的使用者來自中國的不同城市,包括上海、北京、廣州等。這些城市的使用者數量多於其他城市的使用者數量。
讓我們來看看資料集的一些簡單的統計資料。
- 左上方的圖展示了兩個城市每天的簽到情況。這裡我們以北京和廣州為例。X軸表示一年中的每一天,Y軸表示簽到次數。從這幅圖中,你們可以發現,周末的簽到次數要比平時多一些。此外,全國性假期的簽到次數也會多一些,如五一假期和十一假期。
- 如果看看一天中不同時間的簽到次數,我們可以看到不同的模式。例如,如果你們看看左下方的這幅圖(我們仍然對比北京和廣州),你們可以看到,X軸仍然表示一年中的一天,Y軸表示一天中的不同時間。,你們可以發現,人們在晚上的活動要少一些,因為這個時候他們通常要睡覺。但是比較北京和廣州的資料,我們還可以發現,北京人比廣州人睡得更久。這個觀察得到了另一項由中國醫師協會開展的問卷調查的驗證。這項問卷調查的結果是在2013年世界睡眠日公布的。平均來說北京人在晚上10:15入睡,而廣州人則在晚上11:00以後入睡。所以,北京人實際上比廣州人睡的更早。
- 我們研究不同城市的人的移動規律模式。例如,我們研究了在北京的上海人的移動規律模式。也就是說,他們到北京去旅遊或者出差。
這些圖展示了北京、上海和香港的簽到密度分布。它們展示了不同城市的移動規律模式。這些圖左上方的圖展示了在北京的北京人的移動規律,也就是本地的移動規律。上方的中間這幅圖展示了在北京的上海人,也就是到北京去的上海人的移動規律模式。所以,如果看看這9幅圖,我們可以發現,本地移動規律模式通常比非本地的移動規律模式覆蓋城市中更大的範圍。這意味著,如果你生活在這個城市中,你會到不是那麼有名的地方去。但是,如果你到另一個地方去,你很可能去一些旅遊景點、會議中心、機場或者火車站。從這一點來說,如果我們知道一個人是否是本地人,我們可以使用這個屬性來協助我們做位置預測。在實驗中,我們發現這可以提高位置預測的準確度。
資料收集的方法
現在,我們來介紹資料收集的方法。
我們根據兩類自我公開資訊來串連使用者在不同社交網路中的帳號。
- 跨域發布:這意味著,使用者在一個社交網路中發布了一條資訊,並把這條訊息同步到其他社交網路中。例如,如果你在Foursquare發布了簽到資訊,那麼你還可以把這個資訊同步到Facebook中。然後,根據內容、時間和位置,我們可以知道這兩個帳號是同一個人的。
- 使用者畫像:通常,使用者會在他們的畫像頁面公開他們在不同社交網路上的帳號。例如,使用者可能會在他們的首頁上展示他們的領英、臉譜和推特帳號。所以,我們也可以利用這些資訊來串連不同使用者帳號。
基於自我展示的資訊,我們開發了Iconnect演算法。
Iconnect能夠發現使用者在不同社交網路中的介紹頁面,跟蹤相互串連的帳號,並遞迴探索更多的帳號和串連。通過這種方式,我們爬取多個社交網路並收集使用者資料。我們的使用者資料包括三個部分。第一部分是畫像,包括年齡、性別等個人背景資料。第二部分是足跡,包括推特訊息、簽到和各種評論。第三部分是朋友關係,即不同使用者之間的關係。
收集了這些資料集之後,我們想使用這些資料集來研究一群人的生活的方方面面.因為有使用者畫像,所以我們能夠根據位置、大學、年齡或者公司對人們進行分組。如果我們定義了一個組,那麼我們就可以得到這個組的所有足跡。我們使用一棵樹來表示這組使用者的生活的方方面面。樹的根節點表示這組使用者的常見足跡或者生活。子樹的根節點代表一個子群的常見行為。
這幅圖展示了北京人的生活。這裡,根節點,你們可以看到,可以由三個足跡表示:白天逛街、上班和吃快餐。北京使用者的子生活的子群包括喜歡喜劇,白天和晚上都會去辦公室。對於一個更小的群體,他們喜歡咖啡和西餐,在晚上去酒吧。通過這種方法,我們可以將這群使用者的生活進行可視化。
我們還可以比較這群使用者的生活和其他群體的生活。我們設計了一個基於關係的層次化LDA來產生這個生活樹。
在這裡,我們把每個使用者看成一個文檔,把他/她的足跡看成文檔中的單詞。所以,對於一群人,我們有一組文檔。對於這個文檔組,我們使用主題模型來產生主體樹狀結構。因為這是層次化LDA,所以我們可以為這棵樹產生層次化結構。在這裡,關係是指不同使用者之間的社會聯絡,在這裡就是這些文檔之間的聯絡。這與文檔之間的參考關聯性是類似的。
研究執行個體
現在,讓我們來看一些例子。
這裡我們根據使用者的職業把他們分成兩組,一組稱為金融從業者,另一組稱為軟體從業者。對於金融從業者,我們發現,產生樹中最常見的節點表明他們喜歡閱讀經濟類的圖書。我們還看到,他們喜歡去酒吧和銀行。對於軟體從業者,在樹中看不到任何經濟類的圖書,但是我們發現他們中的大部分人都喜歡閱讀電腦和編程類的圖書。他們中的一些人喜歡使用者體驗設計類的圖書。
另外一個例子:
這裡,我們根據使用者的出生年份分組。,我們可以看到90後和80後的兩個例子。從為90後產生的階層中,我們可以看到,他們中的一些人喜歡去咖啡廳這樣的地方,一些人喜歡看香港的文章和玩電子遊戲。這說明這些使用者很年輕。對於80後,他們中的很多人都喜歡火鍋,其中一些人喜歡川菜,他們會在白天和晚上去辦公室。這意味著,他們年齡要大一些,因為他們需要去上班。
總結
- 在LifeSpec項目中,為發現城市的生活開發了一個計算架構。
- 在系統中設計了Iconnect演算法,這個演算法可以基於自我展示的資訊識別相互聯絡的使用者帳號。
- 設計了一個基於關係的分層化模型來總結使用者的生活。
大資料學習筆記5·社交運算中的大資料(3)