在波士頓馬拉松爆炸案發生後,在IT業和企業界炙手可熱的新技術——大資料,能否體現自己的價值,在分析海量資料後揪出嫌犯?政府執法部門如何在偵查和預防犯罪的大資料獲取和分析過程中避免觸及公民自由和公民隱私紅線?甚至, 如何通過大資料技術預防犯罪的發生?這些都是大資料專業人士和各國政府和公安部門需要從波士頓馬拉松爆炸案的偵破過程中吸取的經驗。
根據《洛杉磯時報》對本週一爆炸案的報導,FBI已經在波士頓馬拉松爆炸事件後在案發現場附近採集了10TB左右的資料。 根據《時代週刊》的報導,這些資料包括採集自移動基站的電話通訊記錄,附近商店、加油站、報攤的監控錄影以及志願者提供的圖片和影像資料。 (這引發了一個爭議,那就是能否將一些犯罪偵查工作眾包出去,從而保護公民的隱私權利。 )
目前來看,FBI採集到的10TB的資料量與「大資料」的"Volume"有些差距,但影響資料分析結果的不僅僅是資料規模,另外幾個重要因素是資料來源和品質。 與在海量銀行交易記錄中識別地下錢莊洗錢交易不同,在波士頓爆炸案中,通過資料分析鎖定嫌疑犯或找到炸彈來源要困難得多。 根據資料分析專家Jeff Jonas的一篇博文,常規的資料來源往往無法提供任何有助於找到炸彈的資訊。
Jeff Jonas指出當常規的資料來源不充足,偵破甚至預測犯罪需要增加新的觀察空間(即資料來源)時需要注意以下幾點:
1.在分析中整合外部資料源是一門藝術,需要對防火牆內和牆外的資料流程轉機制,以及相關的法律和政策問題有充分的瞭解。
2.增加資料來源的順序是先內後外。 當然也可以加大舊的資料來源的採集範圍。 (編者注,在波士頓爆炸案中,增加範圍意味著不僅僅採集馬拉松沿途的視頻監控和移動基站資料)
3.抓住壞人的關鍵是其中一些資料來源(暫時)不為犯罪分子所知的。
4.利用好社交媒體。
5.給資料的優先順序排序。
對於FBI和波士頓警方來說,擴大資料的來源和觀察空間不僅僅意味著增加監控和監控資料的分析能力,更重要的是增加社交媒體和群眾資料的採集和整合能力。 在本周的一次研討會上,IBM I2首席專家王海波以長春盜車殺嬰案為例提出「天網工程」的幾點疑問:
1.從報案到第二天上午群眾舉報為什麼沒有找到車?
2.攝像頭精度不足,還是無法處理視頻記錄?
3.報案後卡口無法及時收到通知並攔截?
4.罪犯當時和誰在一起,能否取證,能否證明自首者是真凶?
天網工程的掉鏈子說明,一味增加舊有資料來源的採集力度未必能解決問題。 資料品質、視覺化和智慧化、非結構化資料的快速甚至即時分析、預測都是「警務大資料」需要面對的重大議題。
作為美國警界最早的大資料預測分析試點單位,聖克魯斯警察局通過城市大資料預測犯罪地點和時間,分析歷史案件, 發現犯罪趨勢和犯罪模式, 找出共同點和相關性,通過分析城市資料來源和社交網路資料,甚至能預測犯罪。 過去需要幾天, 幾周甚至幾個月的資料資料分析, 在最新的警用Hadoop大資料分析系統中幾個小時內就完成,從而大大加速了員警辦案的效率。 參考閱讀:警務2.0:用大資料預防犯罪
雖然FBI和波士頓警察局昨日發佈聲明譴責並否認包括CNN、路透社在內的多家媒體的「已經鎖定並逮捕嫌疑犯」的報導(編者按:這些大媒體的爆料很可能來自類似Reddit民間調查小組的小道消息), 但是社交媒體相比FBI的800電話在收集民眾手中的圖片和視頻方面顯然效率要高得多(但存在諸多法律風險和道德爭議)。 如果能事先設計明確的警務社交媒體規範和資訊分享機制,就能有效擴大警務資料分析的來源,提高刑偵效率,同時減少和避免謠言的流傳。
(責任編輯:蒙遺善)