標籤:社交網路 交流網路 移動網路
原文標題:Friendship and Mobility: User Movement In Location-Based Social Networks
作者單位:斯坦福大學 發表日期:2011年
會議:第十七屆 ACM SIGKDD 國際會議——知識發現和資料採礦
引用:Cho E, Myers S A, Leskovec J. Friendship and mobility: user movement in location-based social networks[C]// Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011:1082-1090.
摘要:儘管人類移動和遷移有高度自由性和變化性,但由於地理位置和社會關係限制仍然存在一定結構。本文採用電話定位元據、兩個基於位置的社交網路,來理解人類基本現用模式。短途移動不影響社會結構,長途旅行受社會關係制約。
社會關係解釋10%-30%的人類遷移活動,而周期性行為揭示50%-70%。本文結合短周期活動建立一個人類移動模型,預測未來人類活動的位置和動態。
1.介紹
相關研究。【7,23】將人類有很強周期性的習慣性移動看做往返於家和工作單位之間。【12】人類移動被一天可移動的地理距離限制。【11,26】移動可進一步被社會關係限制,例如拜訪請朋友好的住所。
然而由於可靠的人類移動資料很難收集,這些研究和假設都有局限性。藉助最近出現的新興社交網路如Foursquare, Facebook, Gowalla,通過收集登陸地點(checking-in),可獲得人類移動資料。而傳統方式是藉助手機電話、區域網路定位來確定移動位置。但是當你從二樓工作室移動到一樓咖啡廳時,很明顯位置定位比手機定位更精確。位置定位更零星,手機定位則集中。不論哪種方式,都可收集網路資訊。前者適用於友誼網路,後者適用於交流網路。後文提到的資料將可用於調查三方面的主要人類活動:移動到哪裡(geographic movement),移動頻率(temporal dynamics)、社會關係對移動影響(social network)。我們將從這三方面展開研究。
廣義上,理解人類移動模式有很多應用。例如,協助改進大規模計算、基於內容的發布網站、城市規劃、理解人類遷徙規律、疾病傳播。
如今工作:調查了移動位置、頻率、社會關係三者的聯絡;分析人類活動中的地理位置和活動路線的角色,以及社會關係影響,比如去見一位朋友;識別控制人類活動的基礎因素:人類為了見老朋友而移動的可能性有多大;人類為了結識新朋友移動的可能性多大;當離家越遠,這種可能性是增加還是減少。
結果:經驗結論。從兩個流行的基於位置的社交網路擷取資料:Gowalla and Brightkite,並追蹤歐洲國家一個兩百萬人的電話。觀察到人們基本在一個地理位置範圍內活動,偶爾長途旅行。當一個地方有朋友時間長度途旅行可能性增加,而短途旅行很少受這種社會關係影響。總之,為了友誼的移動頻率是為了結識新朋友的移動頻率的兩倍。同時,登陸資料和通話資料顯示出很強的一致性和穩健性。
一般上,用友誼預測個體移動位置有優勢和不足。比如,一個人可能在他朋友登陸的地方登陸,而隨著時間差異增大,這種可能性降低。84%的人在朋友拜訪之後相比之前有少於20%的登陸。總而言之,收集資料可解釋10%的人類移動,登陸資料可解釋30%。
結果概述:建立模型。基於經驗發現,我們建立一個預測與社會移動模型來預測個體移動。首先設定第一目的地和第二目的地,比如家和公司。模型將包含三個組成部分:(1)使用者經常登陸的空間位置模型。(2)這些位置之間臨時移動模型 (3)社會關係影響下的移動模型。每日移動模式是在家和工作場所轉換,在此基礎上,每周增加了社交移動模型。
模型可預測使用者位置移動的機率有40%,行動數據平均距離錯誤率0.23%。登陸資料記錄的錯誤率有2.7%。且觀測了兩種資料的一致性和穩定性。
進一步相關工作:將人類移動看做擴散過程【2】,或圍繞一個中心點的隨機過程【12】,我們的模型將人類活動看做圍繞幾個固定點的隨機過程。這種靈活性會帶來更多的靈活性。還有一些研究專註於無線網路的移動檢測【18,27】。同理,還有基於GPS的人類位置監測,這種方式受限於具體馬路位置【16】。GPS和無線定位可長時間追蹤使用者位置,這方面研究已經限制於小部分使用者和地區。
2. 登陸位置的角色
我們用不同的資料集來捕獲人類移動:2009 and Oct.2010 for Gowalla、Apr. 2008 to Oct. 2010 for Brightkite. Gowalla登陸總數是6.4百萬,Brightkite有4.5百萬。前者友誼關係構成無向圖,後者是有向圖。為了簡便,我們將Brightkite視作無向圖,僅僅考慮雙向邊。 Gowalla共有196,591個節點,950,327條邊。Brightkite有58228個節點,214078條邊。
為了確保資料準確,同時引入手機追蹤資料。由歐洲提供,包括近2億個使用者,4.5億條通話記錄。平均追蹤455天。最近的電話基站將記錄每個電話的位置。這意味著我們有接近9億個精度3公裡的登陸檢測資料。只考慮城市範圍內的登陸,當每對個體間打電話超過5次(總共10次),為他們建立聯絡邊,包括2億個節點,4.5億條邊。
Brightkite的資料顯示為藍色,Gowalla是紅色,電話資料是綠色。
使用者登陸行為。使用者可能傾向於離家多遠,他們有多大的可能性在旅行地點遇見社交網路的朋友。這是我們興趣點。使用者家庭位置不會明確給出,我們假設是25個登陸地點的平均【29】。人工檢查評鑑這種方法具有85%的準確性。
首先,我們測量使用者 傾向於離家多遠,Figure 1標出了Brightkite, Gowalla 和the cell phones資料顯示的離家距離,帶有指數特性。當離家超過100km,分布快速衰減。
圖1 100公裡範圍內,B地和G地登陸可能性以及手機聯絡可能性隨距離變化
圖2 (a)朋友之間住宅距離分布,(b)所有使用者住宅距離分布,(c)200個大城市之間距離,(d)當一個占非均勻人口密度,作為距離函數的友誼機率
3.友誼與移動
(大意)假設B是A的朋友,B的位置會影響A的移動,我們測量這種移動的可能性來調查人類活動的社會性。
:A在B的住處為圓心,半徑r的範圍內登陸,可能性為P。離家的距離為d。變化r值做多組實驗。
圖3 (a)說明,離家距離越近,拜訪朋友而移動的可能性越大。如果我們離家100km,有30%的可能性拜訪朋友。100km以外,拜訪朋友可能性保持不變。隨著距離變大,一個人可能到達的位置增多,朋友數則減少。而我們觀察到的是保持不變,我們猜想可能是隨著距離增大,朋友的影響越大。我們將此模型與忽略社會結構的null模型做了比較,後者用虛線畫出。3(b)描述了二者比值。
很明顯,如果不受社會結構影響,人們出遠門不可能遇見朋友。旅行1000km時朋友的影響是40km時候的10倍
個體移動中朋友的影響
因為朋友可能在旅行前和旅行後產生,因此有兩種假設。前一種是朋友影響旅行,後一種是移動影響社會關係。
為了區分二者,我們取了Gowalla社會網路距離三個月的兩個時間點t1和t2。Ca表示t1後一天內A登陸地點與他所在人際關係網中朋友分布對比,證明他是否由於朋友而旅行。Cb表示t1之前的登陸,與三個月之後的人際關係網路對比,證明是否旅行產生了新朋友。範圍限定在半徑25km。事實證明有61%的可能拜訪已經存在的朋友,24%的可能產生新朋友。前者大約是後者2.5倍。行動數據顯示,前者高出後者70%。
移動到朋友之前的登陸地點
旅行超過100km,10%的可能登陸與朋友相似的地點。距離越遠可能性越高。
用友誼預測移動的限制
資料顯示,Gowalla有9.6%, Brightkite 有4.1%的機率先有朋友登陸後有使用者登入。這表明只有一小部分使用者與朋友登陸交疊。
我們建立i位置的軌跡向量:
圖4(a)展示了A和朋友軌跡向量的一致性,當一對使用者同時同地登入超過40%,他們友誼可能性0.3。 圖4(b)描述大量使用者不會登陸之前朋友登陸的地點。Gowalla,80%少於20%,52%為零次。這表明至少50%的使用者沒有資訊來證明他的社會關係對移動影響。
人類活動的臨時和地理預測
4.人類活動模型
主要提出兩個模型:Periodic Mobility Model (PMM)移動預測模型與 Periodic & Social Mobility Model (PSMM) 社會移動預測模型。
將在社會友誼和人類活動:社會友誼和人群移動:基於位置的社交網路中的使用者移動(二)繼續翻譯。
社會友誼和人群移動:基於位置的社交網路中的使用者移動(一)