留學本來想繼續在研究生這條路上一直走到黑的,奈何時間不夠,口袋裡面的銀子總是不夠用, 研究的東西也是淺嘗輒止,沒辦法匆匆寫了篇論文交了就畢業了,一聲長歎,想想求學二十餘載,總是感覺什麼都不夠用,尤其是腦子,有時甚至忘了帶上 研究室生活也是張弛無度 決定出去工作了,但是在此之前簡單的把研究的內容整理下, 權當是拋磚引玉,忘別見此笑話, 以後的內容會偏及資料防護DLP領域<-本人從事的工作 下面開始迴歸正題: 大資料這個領域絕對是大勢所趨,尤其是Image Recognition/語音辨識這兩個領域,這絕對是是人工智慧領域必須要解決的兩大難題,當然像Google微軟蘋果這些巨型企業每年也投入了相當多的閃閃金子到此領域,至此已初見成效. 話說像大資料集群的終極目標被很多人誤解了,很多人覺得可以通過Hadoop組建廉價叢集很High,有點變廢為寶的覺悟 >.< Google還缺錢麼。。。。。真是, 人工智慧目前為止不要獨立的強健大腦(有更好),而是需要一個強健的叢集和一個強覆蓋面通訊網路
這兩個領域國內起步晚,研究少,進度慢,覺悟還驚人的低,各個方面不得不步人後塵. 這次的內容是如何在Hadoop平台通過Face Service技術給大批量圖片進行分類. Tagging and Classifying Facial Images in Cloud Environments Based on KNN using MapReduce 內容就簡單寫寫,不複雜,希望對於入門的同學有所協助 這裡有多個關鍵詞: Hadoop/Mapreduce,人臉Image Recognition,分類演算法 先來張圖熟悉熟悉
隨著圖片指數級急增,別說社交網站之類的,就全球各地每天收集到的CCTV映像就夠喝一壺的,儲存技術也是幾十年原地踏步,這是後話,以後會慢慢涉及這一方面, 相應的圖片處理技術還停留在五六十年代,數百億張圖片如何一次性處理這是個非常大的難題, 所以呢這裡假設一個情景:如何通過即時分析全國各地CCTV/SNS網站圖片中出現的人臉映像追蹤罪犯 Hadoop讓叢集處理圖片成為可能,Image Recognition技術卻沒跟的上時代, 爐灶換成了電飯煲,夥夫卻還是原來的夥夫,是煮不出滿漢全席的 但是不影響我們練練手 這裡用最原始最基本最簡單的圖片特性提取演算法 : PCA 主成分分析,(ICA, LDA 這些代碼寫了,沒敢試) 分類演算法也用最原始最簡單最粗暴的分類演算法 : KNN 講到PCA降維演算法,我想起來個多維空間問題和矩陣降維問題, 在我看來多維空間是三維空間的重疊的集合,比如,兩個三維空間的兩維重合後就是4維空間,兩個4維空間的三維重合後就是5維空間,以此類推... 矩陣降維: 現有矩陣維數都是比較低了,如果是 10000*10000的矩陣呢, 如何降維,這個稍微研究過,以後會單獨開一篇討論下. PCA/KNN相關演算法的解釋可以單獨開個好幾篇寫,以後看有空的,網上資料也不少
如這張圖中,先通過圖片學習提取特徵因子,然後再映射到一定維度空間,最後利用KNN演算法找出最相近的值(人臉)
整個構造圖放到Hadoop中後流程圖將如下
啥,你問我效果
- 速度是快了
- 萬惡的Image Recognition技術,油多壞菜,識別率一般
- 想起來再補
結論:實用性很強,但是演算法方面有待提高,奈於時間有限,沒有使用更進階的演算法,算練手吧。 拋磚引玉 |