大資料學習筆記7·城市計算(1)

來源:互聯網
上載者:User

標籤:

前言

眾所周知,快速的城市化使得很多人的生活變得現代化,同時也產生了很多挑戰,如交通擁擠、能源消耗和空氣汙染。

城市的複雜性使得應對這些挑戰看起來幾乎是不可能的。近來,感測技術和大規模計算基礎設施的進步產生了各種各樣的大資料,從社會化媒體資料到交通資料,從地理資料到氣象資料。如果使用得當,我們可以使用這些資料去應對城市中面臨的各種挑戰。

受到這個機會的激勵,我們提出了城市計算的解決方案。它把城市感測、城市資料管理、城市資料分析和服務提供變成一個對人的生活、城市運行系統和環境進行不斷重複但不顯眼的改進的迴圈。

我們需要交通資料、人口資料甚至汙染資料。所以,如何從不同領域中的多個資料集中釋放知識的力量成為了一個新的挑戰,這使得城市計算在本質上有別於傳統的資料採礦和機器學習任務。我會介紹城市計算的概念、方法和應用,分別展示城市感測、城市資料管理和城市資料分析方面的代表性研究。這些研究的應用情境包括交通、城市規劃、環境和能源消耗。

城市大資料分類1. 空間維度和時間維度上的待用資料

這類資料可以分為三個子類:點、線和圖。例如,一個興趣點是一個靜態資料點,其價值不隨時間改變;一條路線可以使用一條線來建模;一個路網可以使用一個圖來建模。

  • 點資料

    中展示了兩類興趣點資料的分布,黃色的點表示電影院,藍色的點表示酒吧。在過去五年,北京市區電影院的數量在持續增長,達到260個。這意味著越來越多的人喜歡到電影院看電影,而不是買DVD。通過挖掘連續幾年的資料,還可以講出來很多這樣的故事。
  • 線資料

    這幅圖展示了北京的路網。其中,紅色的線表示串連北京和其他城市的高速公路,藍色的線表示北京的環路,黑色的線表示北京的主幹道。有了連續幾年的資料,你們可以看到一個城市的路網是如何擴張的。
2. 空間靜態時間動態資料

與第一類資料不同,這些資料中與每個點關聯的數值會隨時間變化。我們稱之為時間動態性。感測網路資料就是這類城市大資料。

比如空氣品質資料。很多城市都設定了地面的空氣品質監測站,目的是每小時向人們報告一次環境空氣品質。每個空氣品質檢測站都有靜態空間資訊。但是,每個網站的空氣品質會隨時間變化,我們稱它是時間動態但是空間靜態:

再是氣象資料,如颳風、溫度、濕度等。城市中有很多氣象監測站。就像空氣品質的例子,每個網站都有固定的地理位置,但是氣象資料的讀數會隨時間變化。還有房地產市場,每個住宅地產都有一個固定的地理位置。但是,它的價格和屬性會隨時間變化。

這幅圖展示了北京的動態熱圖:

它描述了每段時間段內每個地區中的出租車到達量。顏色越深表示給定時間段內這個地區的到達人數越多。首先,北京北部相對來說比北京的其他地區更受歡迎。這是北京的CBD。通過比較兩個不同類型的日子中的相似地區,我們可以看到,工作日比節假日有更多人到達北京的中心地區,因為節假日中大部分人都會離開城市旅行。

3. 空間維度和時間維度上的動態資料

這類資料再空間維度和時間維度上都是動態。這類資料中資料結構最複雜的是軌跡。

我們有很多點。每個點都關聯了一個地理資訊,如X座標、Y座標和時間戳記。按照時間順序收集這些資料,我們就可以形成一個軌跡。

有很多來源可以產生軌跡資料,如人的移動。我們可以通過使用GPS記錄儀來追蹤我們的旅行經曆。我們還可以通過分析我們的軌跡來分析體育活動。簽到資料也是一種軌跡。車輛的運動也可以被記錄為軌跡,如出租車軌跡、公交車軌跡;動物的遷徙也是一類軌跡資料,颶風、龍捲風等自然現象的運動也可以被看成是軌跡。

這幅圖展示了北京的3000多輛出租車產生的GPS軌跡的熱圖。這些資料不僅告訴了我們地面上的交通模式,而且包括城市中人的移動性模式,因為我們知道人們上出租車和下出租車的地方。

概念,架構和挑戰城市計算的概念

我們先通過一個例子說明什麼是城市計算。

現在,空氣汙染是一個全球性的問題,特別是在發展中國家中。很多城市都建設了地面上的空氣品質監測站,它們每小時會向人們報告一次環境空氣品質。在這幅圖中,每個表徵圖表示一個空氣品質監測站,與每個表徵圖關聯的數字是這個空氣品質監測站測得的空氣品質指數。這個數字越小,表示空氣品質越好;這個數字越大,表示空氣品質越差。

我們可以看到,即使是在同一時刻,不同網站測得空氣品質都可能相差很大。這個現象並不令人覺得奇怪,因為空白氣品質受到很多複雜因素的影響,如交通流、能源消耗以及建築物、工廠、公園或者地區的分布。這些因素在城市中的不同部分是不同的。所以,如果沒有空氣品質監測站,我們就無法準確地知道一個地方的空氣品質。

我們不能使用線性差值方法來計算這個地方的空氣品質,因為空白氣品質在城市中的分布是高度非線性和有偏的。我們也不能使用這些網站的平均讀數來表示這個地方的空氣品質。為瞭解決這個問題,我們通過使用兩部分大資料來推測整個城市即時、細粒度的空氣品質。

  • 第一部分大資料是已有的網站獲得的空氣品質的即時讀數和曆史讀數。
  • 第二部分大資料包括五個其他資料來源:氣象資料,如颳風、溫度、濕度等;交通流;人的移動性資料;興趣點的資料,如這裡的餐館數量、工廠數量,一個特定地區的建築物密度;以及路網資料,如一個給定地區有多少個路口,多少個交通號誌,高速公路裡程是多少。

使用機器學習和資料採礦技術,我們可以在一個地區中觀察到的資料和這個地區的空氣品質之間建立一個網路。這裡是一個全市的空氣品質的精細的結果。它是非線性。有了這樣精細的空氣品質資訊,我們就可以影響人們的決策制定,如去哪裡遠足,什麼時候關窗戶。同時,這也是在未來找到空氣汙染的根本原因方面前進了一步。

城市計算的架構和挑戰


可以看到,城市計算的架構主要有資料收集、管理、分析和輸出。在不同層次有不同的挑戰。

  • 城市感測中的挑戰

    1. 資料缺失和稀疏性
      我們只有抽樣資料,基於抽樣資料產生整個資料的真實分布是一個挑戰。

    2. 有偏分布
      我們有部分使用者的一些簽到資料,但是我們要獲得整個城市範圍內的人的移動性模式。很顯然,這些抽樣資料並不是城市範圍內真實的人的移動性模式。這就是所謂的有偏分布。

    3. 有限的來源
      我們只有有限的資源、預算或者人力來鼓勵人們貢獻他們的資料。

    例如,我們有出租車的軌跡資料,但是我們想要估計路面上所有行駛車輛的交通流。出租車的分布可能不同於所有車輛的軌跡分布。所以,我們需要基於抽樣資料產生整體交通分布的能力。

    城市空氣項目中,我們在城市中只建立了有限數量的空氣品質監測站。我們只有從這些空氣品質監測站獲得的樣本資料。這些資料是非常稀疏的,但是我們想要複原整個城市的資料。

    有兩種類型的資料收集策略。第一種策略是靜態感知,即在固定位置部署一些感應器。這種策略的問題是在什麼地方部署網站可以最大化知識的收益。第二種是動態激勵,對於基於群體感知的策略,我們想要把正確的激勵放到正確的地方以獲得更多的資料。

  • 城市資料管理中的挑戰

    1. 多模態資料
      這些資料有不同的表示形式、使用不同的單位,具有不同的密度。
    2. 動態、高速、海量的資料
      我們必須考慮如何頻繁地更新資料。

      在城市空氣項目中,我們需要使用五個不同的資料集,包括氣象資料、交通資料和興趣點資料。這些資料是完全不同的。它們都是多模態資料,具有不同的度量、密度和表示方法。大部分資料都有相關聯的空間和時間資訊。其中一部分是類別資料,另一部分是數值資料。所以,在這個項目中,我們需要快速提取給定時間段內給定地區中的各種資料。我們需要索引結構來更好地管理多模態資料。

      另外,我們需要考慮資料的更新頻率和資料量。首先,資料更新非常頻繁。所以我們需要一些靈活的索引結構,以便資料能夠非常頻繁地更新。其次,不同資料集的更新頻率是不同的。如果我們簡單的把不同類型的資料集組織到一個資料索引結構中,那麼就會面臨一些大的挑戰。當一類資料集中的一個資料片有了更新時,我們就需要更新整個資料結構,這將會是一個災難。第三,資料是海量的。我們無法在一台機器上儲存所有資料。所以如何把資料分組並分布到不同的機器上,以便進行並行計算是資料管理的一個新挑戰。

    3. 識別不同領域的多個資料來源之間的關聯模式
      跨多個領域的關聯模式背後有巨大的價值。識別這樣的關聯模式非常有挑戰。

      首先,這裡面沒有清晰的交易概念。例如,超市的交易記錄中會記錄人們同時買牛奶、麵包和尿布。但是,這裡我們有不同的資料來源,其中並沒有清晰的並發的概念。所以我們必須定義不同資料來源的並發的含義是什麼。第二個原因是我們有很多資料來源,每個資料來源都有很多屬性,所以不同的資料來源和不同的屬性就可能有很多種組合。這是一個非常耗時的過程。第三,我們需要處理不同模態之間的交叉。發現不同類別之間的交叉非常容易。這就是傳統的關聯規則方法處理交易資料的方式。但是,如果數值資料和數值資料在一起或者數值資料和類別資料在一起,那麼是什麼樣的呢?這是一個我們需要解決的新挑戰。

  • 城市資料分析中的挑戰

    1. 空間和時空資料分析
      傳統的資料採礦和機器學習技術通常是處理文本和映像資料的。但是現在我們有空間和時空資料。這是一個我們需要去探索的新領域。
    2. 跨域資料融合
      我們有跨多個域的多個資料來源。如何從來自不同域的多個資料集中釋放知識的力量是一個新的挑戰。這也是一個端到端的服務,需要整合不同的技術,包括機器學習、資料管理和可視化。我們需要把這些技術彙總在一起。

    這裡,我把跨域資料融合方法分成三類。
    第一類使用一個任務不同階段的不同資料集。我們首先用路網將城市分成一些地區,然後使用交通資料來分析不同地區之間的通勤模式。這被稱為基於階段的資料融合。

    第二類資料融合方法是融合不同特徵水平的資料。我們從不同資料集中提取特徵,把資料收集在一起作為一個新的特徵向量並把他們作為一個分類或者資訊檢索任務。進階的基於特徵水平的融合方法使用深度神經網路學習從不同資料集中提取的特徵的新的表示。

    第三類資料融合方法稱為基於語義含義的方法。這意味著我們需要理解資料的語義含義。這類方法有四個子類。

  • 城市資料輸出中的挑戰

    1. 它必須是城市範圍內的動態決策制定和服務提供。它不能只是一個路段上的服務。這是一個城市範圍內的服務,它需要影響人們的決策制定。
    2. 為預測未來使用一些服務,為理解曆史使用一些服務。

    例如,我們想要推斷整個城市的細粒度的空氣品質。這可以作為一個服務,用來理解城市中當前的空氣品質。我們還可以預測未來的空氣品質。所以,這是一種對未來的理解。有時候,我們需要看看曆史來理解我們的資料。例如,什麼是城市中空氣汙染的根本原因。

附:
1. 城市空氣項目首頁:http://urbanair.msra.cn/
2. 城市空氣項目論文:http://research.microsoft.com/en-us/projects/urbanair/default.aspx
3. 更多關於城市計算的內容和資料下載:http://research.microsoft.com/en-us/projects/urbancomputing/

大資料學習筆記7·城市計算(1)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.