你所未曾瞭解的大資料:人工干預仍有必要

來源:互聯網
上載者:User

關於「大資料」你一定聽濫了,但也沒搞明白究竟是怎麼回事。 儘管你無時無刻不在感受到它帶來的「某些」便利:

比如一周前你在某個社交網站上做面試測試題,當你面試完時才知道,那份測試題真正的意圖是匹配你與團隊性格的契合度有多高。 又如,在十一黃金周前你接到某個購票應用推送的資訊,上面提示你提前16天通過電話訂火車票,要比同日在網上購票成功機率高。 當你真的打過去時,發現電話預訂系統正處於繁忙狀態,而不得不等了2小時後再致電,才訂票成功。 但好過同一時刻被卡在12306網站上而付不了款。

大資料正在滲透各行各業,甚至能跟你考試能力測試、患上某種疾病的機率等非常生活化的場景應用都發生緊密的聯繫。 今後大資料在我們的生活中就像是水和電一樣,讓社會整個資訊品質更好、讓資訊利用效率更高效。

在這個系統中,資料的採樣與後期分析仍需要靠人為力量去完成。

眾包讓資料採樣更自動化

「今後人工干預會越來越不必要,至少在前端採集資料是這樣。 」產品經理James向騰訊科技談到,現在很多資料的採集都來自與使用者的交互行為,比如搜索、微博互動、又比如「喜歡」、「贊」、「丟掉廢紙簍」這類在應用中小的設計,只要使用者主動完成,在後臺便可推算出資料品質。

洋蔥價格的高漲起落決定了印度通貨膨脹率的趨勢,一家名為Premise的創業公司,每天通過700多個安裝了自己開發應用的使用者來即時上傳各地區的不同洋蔥零售價格。

該公司的聯合創始人大衛-斯洛夫(David Soloff)認為,這是一種能夠即時感知全球金融動態的有效管道,因為當地商店一般都會根據經濟環境的變化(其中包括批發價格和消費者信心等因素)及時調整商品售價。

「Premise所提出的分析方法已經證明,根據自己所收集的資料在部分經濟環境中提前4-6周給出通脹指標預測。 大家完全不必再等待此前那種每月一次的‘經濟天氣預報’了。 」斯洛夫強調。

而對零售門店來說,貨架上品牌的陳列直接決定著銷量,如何讓品牌在流動的顧客中一直佔據較好的陳列位置,讓這項工作既需要耗時耗力,也非常瑣碎。

為此一家名為Quri的公司,通過開發一款名為EasyShift的應用,讓使用者有償貢獻時間去精力去完成這項資料的收集。 使用者只要領取應用下達的任務,在指定的地點拍指定場所的照片,上傳到Quri的伺服器上,便可領取相應微薄的報酬。

EasyShift的理念不難理解:現在大多數使用者都隨身攜帶智慧手機。 品牌商想要瞭解自己的商品在大型零售店的展示情況、評估競爭對手的動態、報告斷貨的產品和定價資訊、監測促銷和產品發佈情況。 EasyShift向消費者付費,讓他們在購物時順手收集這些資訊。

在日本大地震中,意外地運用了某汽車品牌車載導航即時的視覺化資料,打通「綠色生命通道」的專案「連接生命線」。

該專案負責人菅野熏是日本電通創意設計中心高級總監,在日本大地震前他接受了某汽車品牌的合作專案。 該專案為在某路段行駛了哪一輛車,什麼時間行駛,位於哪個經緯度,以多快的速度朝哪個方向行駛等,每分鐘大約有十萬條的動態資料都會記錄在一個車載導航資料庫中,菅野熏將這些資料整合一個程式內,並以日本地圖的形式展現出來。

在日本發生地震時,這些導航資料都能臨時派上用場。

「地震時,通訊信號都不太暢通,人們只能夠通過網路確認親人朋友是否平安,我們所面臨的挑戰就是如何將救援隊去送往災區。 」菅野熏說道。

導航資料本來用於交通擁堵情況而搜集車輛的行駛資料。 「從另一個角度來說,有車輛行駛的資料說明,道路是可通過的。 」菅野熏談到,地震後一旦有車輛行駛,就用綠色去進行標注,形成一條通行軌跡。

與此同時,團隊還在Twitter上即時組織使用者去發佈目前全日本各地路況與路標資訊,綜合兩類資訊後,將綠色生命通道資料于地震發生20個小時後發佈在網上公開下載。 除了網頁端外,程式設計人員也快速開發了移動端。 在當時的危機之下,資訊擴散的力度是極快的,很快在在網站和手機應用中,多條綠色的線路都逐一呈現,為救援隊快速到達提供了參考。

大資料時代人工干預仍有必要

機器學習在大資料中確實佔據主導作用,但真的不需要人為干預嗎? 例如,你已經習慣氾濫在身邊網路行銷,但你真的認可靠單純的數學模型與規模資料分析的行銷推薦嗎?

ZestFinance是一個利用機器學習加大資料分析為 payday loan行業(發薪日貸款,類似高利貸的短期高利息借款)提供客戶品質分析的平臺。

與傳統的分析方式不同,ZestFinance可同時運營多個模型對海量資料進行分析來判斷各種可能性,再加上越來越多的資料來源和種類,然後這些資訊被轉化為幾萬個可對借貸者行為做出測量的指標,如詐騙幾率、 長期和短期內的信用風險和他的償還能力。 最後各模型的結果被整合成最終結果。 這個平臺可在幾秒間為使用者提供最可靠的結果。 創始人Merrill 說:「我們更傾向于通過把機器學習機制和人工干預結合到一起。 」

例如在醫療領域,機器學習基礎上的資料分析就遠遠不夠。 「因為機器學習能推算出一定比例的概率,但無法達到精確、精准。 」春雨掌上醫生CTO曾柏毅向騰訊科技舉例,如對於某種疾病模型的設計,是通過調取現有資料庫中所有相似度90%以上提問,將問題結果分析匯總,製作疾病發生概率模型,並將每個問題醫生的建議,總結出「無大礙」和「去醫院「比例, 為患者提供直觀的資料參考。

「但這也是取一定比例的概率,是用於使用者自查。 可是否能精確到病人真的符合這種病症,還是需要人為分析(醫生診斷),我們這些在後臺的資料分析員也要去再排查、甄別資料的準確度。 」上述人士談到。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.