Time of Update: 2014-12-18
在資料庫格式領域將會發生一場戰爭嗎? Hadoop和大資料這兩個世界在企業界會合並還是衝突?就在Janath Manohararaj以藍十字藍盾協會(Blue Cross and Blue Shield Assoc.:美國第一大私人健康HTTP:// www.aliyun.com/zixun/aggregation/6173.html">保險公司集團----譯者注)資料庫服務...
Time of Update: 2014-12-18
隨著大資料被更多的企業採用,大資料處理分析演算法編寫和生產語言也得到了廣泛的關注。 而在不知不覺中,開源統計語言R已基本成為大資料科學家和開發者的必備技能。 在所有程式設計語言和技巧中,人氣急劇上升。 以下為譯文 通過與大資料處理工具整合,R提供了大資料集的深度統計能力,包括統計分析以及資料驅動的視覺化等。 而在金融、藥物、媒體及銷售這些可直接從資料中獲取決策的行業中,R更得到了深度應用。 ...
Time of Update: 2014-12-18
大資料是目前最熱門的話題,雖然不少廠商宣稱推出了大資料的產品,但在實際應用中,Hadoop已經成為大資料處理的事實標準,Facebook、百度、阿裡等互聯網企業無一不採用Hadoop。 即便是商務資料庫公司,如IBM、Oracle、SAP、Teradata、甚至Microsoft等都採用了Hadoop。 國產資料庫廠商的人大金倉在大資料方解決案中也整合了Hadoop產品。 Hadoop之...
Time of Update: 2014-12-18
&HTTP://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 如今學習應用資料視覺化的管道有很多,你可以跟蹤一些專家博客,但更重要的一點是實踐/實操,你必須對目前可用的資料視覺化檢視有個大致瞭解。 以下 是Netmagzine列舉的二十大資料視覺化檢視,無論你是準備製作簡單的圖表還是複雜...
Time of Update: 2014-12-18
在資料庫市場中,微軟的SQL Server是最受關注的產品之一。 在資料庫知識網站DB-Engines每月公佈的資料庫流行度排行榜中,SQL Server幾乎穩占第二名的位置。 但從這個榜單每月的變化中也可以看出,大量NoSQL資料庫的排名不斷上升,已經開始威脅到傳統資料庫的地位。 「以不變應萬變」不再是大資料時代應有的策略,老牌資料庫廠商在保持傳統市場領先的基礎上,不斷拓展新市場,微軟...
Time of Update: 2014-12-18
「如何把資料庫中的一個使用者控制碼和某個人聯繫起來?」 甲骨文大資料與高級分析副總裁Neil Mendelson向記者提出了這樣一個問題。 對於任何一個在社交媒體上做資料分析的人來說,這都是一個棘手的問題,因為你需要訪問存儲在多個平臺上的資料。 針對這個問題,甲骨文最新推出的SQL擴展方案——Oracle大資料SQL(HTTP://www.aliyun.com/zixun/aggregation/...
Time of Update: 2014-12-18
自成立以來,HTTP://www.aliyun.com/zixun/aggregation/1560.html">Facebook一直是網路攻擊的目標。 他們積極抵禦惡意軟體和防止欺詐,並且他們在這方面的努力經常見諸報端。 然而,可以很公平地說,Facebook面臨的實際威脅更加嚴峻。 當面對威脅時,知識就是力量。 很多企業都認識到威脅分析和安全分析的重要性,它們不僅可以説明...
Time of Update: 2014-12-18
針對大資料的開源原始程式碼平臺變得十分流行。 在過去的幾個月裡, 似乎幾乎每個人都感覺到了影響。 低成本、靈活性和適用于受過訓練的人員是開源繁榮的主要原因。 Hadoop、R和NoSQL是現在許多企業大資料策略的支柱,不管他們是否用它管理非結構化資料或執行複雜的統計分析。 」 幾乎難以跟上它:SAP AG最近發佈了一個新的產品, SAP BusinessObjects預測分析,軟體整合了開...
Time of Update: 2014-12-18
在介紹微博推薦演算法之前,我們先聊一聊推薦系統和推薦演算法。 有這樣一些問題:推薦系統適用哪些場景? 用來解決什麼問題、具有怎樣的價值? 效果如何衡量? 推薦系統誕生很早,但真正被大家所重視,緣起于以」facebook」為代表的社會化網路的興起和以「淘寶「為代表的電商的繁榮,」選擇「的時代已經來臨,資訊和物品的極大豐富,讓使用者如浩瀚宇宙中的小點,無所適從。 推薦系統迎來爆發的機會,變得離使用者更近:快速更...
Time of Update: 2014-12-18
隨著大資料的熱潮不斷升溫,幾乎各個領域都有洪水傾瀉般的資訊湧來,面對使用者成千上萬的流覽記錄、記錄行為資料,如果就單純的Excel來進行資料處理是遠遠不能滿足的。 但如果只用一些操作軟體來分析,而不怎麼如何用邏輯資料來分析的話,那也只是簡單的資料處理。 替代性很高的工作,而無法深入規劃策略的核心。 當然,基本功是最不可忽略的環節,想要成為資料科學家,對於這幾個程式你應該要有一定的認識...
Time of Update: 2014-12-18
企業在著手推動大資料項目目的過程中,經常會遇到這樣一個關鍵性的決策難題——到底該使用哪種資料庫方案?經過綜合考量,最終的選項往往只剩下SQL與NoSQL兩種。 SQL具有驕人的業績以及龐大的安裝基礎,但NoSQL卻能夠帶來可觀的收益並同樣擁有不少支援者。 在今天的辯論當中,我們將一同聽聽兩大陣營中各位專家的意見。 NetworkWorld網站...
Time of Update: 2014-12-18
DataX是一個在異構的資料庫/檔案系統之間高速交換資料的工具,實現了在任意的資料HTTP://www.aliyun.com/zixun/aggregation/34332.html">處理系統(RDBMS/ Hdfs/Local filesystem)之間的資料交換,由淘寶資料平臺部門完成。 Sqoop是一個用來將Hadoop和關聯式資料庫中的資料相互轉移的工具,可以將一個...
Time of Update: 2014-12-18
機器資料可能具有許多不同的格式和量。 天氣感應器、健康跟蹤器,甚至是空調裝置都會生成大量資料,它們需要一個大資料解決方案。 &HTTP://www.aliyun.com/zixun/aggregation/37954.html">nbsp;但是,您如何確定哪些資料是重要資料,如何確定該資訊有多大比例是有效的、 值得包含在報告中或有助於檢測警示準則? 本文將介紹為大量機器資料集...
Time of Update: 2014-12-18
Hadoop的應用前提是」資料是有價值的!」,當然,這一點已經得到了幾乎所有人的認可,並且在實際環境中,也都是這樣在做的,我們都希望從系統日誌,網路資料,社交資訊等海量資料中發掘出有價值的資訊,比如,使用者的行為,習慣等, 而這些是做下一步市場行銷的有效決策依據。 在Hadoop出現後,對於資料的發掘更是體現的淋漓盡致,尤其是從知名的互聯網公司開始,都已經在使用或部署Hadoop環境。 面...
Time of Update: 2014-12-18
當Hadoop進入企業,必須面對一個問題,那就是怎樣解決和應對傳統並成熟的IT資訊架構。 業內部,如何處理原有的結構化資料是企業進入大資料領域所面對的難題。 當 Hadoop進入企業,必須面對一個問題,那就是怎樣解決和應對傳統並成熟的IT資訊架構。 以往MapReduce主要用來解決日誌檔分析、互聯網點擊流、互聯網索引、機器學習、金融分析、科學類比、影像存儲、矩陣計算等非結構化資料。 但...
Time of Update: 2014-12-18
2014HTTP://www.aliyun.com/zixun/aggregation/13383.html">Spark峰會在美國三藩市舉行,與會資料庫平臺供應商DataStax宣佈, 與Spark供應商Databricks合作,在它的旗艦產品 DataStax Enterprise 4.5 (DSE)中,將Cassandra NoSQL資料庫與Apache Spark開源引...
Time of Update: 2014-12-18
跟所有的企業資料一樣,大資料唯有通過應用投射給使用者才有用。 對於設計或重新設計HTTP://www.aliyun.com/zixun/aggregation/8213.html">大資料應用的架構師來說,一個關鍵問題是究竟是用物件導向架構(SOA)還是RESTful API將大資料元件及服務與應用其他部分連接。 從大資料產品要暴露的介面開始,然後在應用這一側定義大資料介面。 接...
Time of Update: 2014-12-18
1 統計顯示Hadoop挨批評 大資料這個概念由來已久, 也一直引人關注。 很多人也認為大資料是大多數商業和科學問題的答案。 調查結果統計(圖:paradigm4.com) 但是最新的一項HTTP://www.aliyun.com/zixun/aggregation/32268.html">調查顯示的結果和人們的心理預期並不相符。 根據資料庫專家Paradigm4的資料...
Time of Update: 2014-12-18
Henry和我正在進行一項檢查大資料以及其真正意義的工作。 大資料是一個流行語。 和許多流行語一樣,大資料這個詞用得有些濫了,但是它包含了一些真正的有用性和技術。 我們決定在這個主題上對大資料進行一番分析,努力挖掘其中的真實性以及它們對存儲解決方案的意義。 Henry用一個很好的介紹開始了這個系列。 他對大資料的定義是我所見過的最好的定義。 因此,我將重複這個定義: 大資料是將資料變為資訊...
Time of Update: 2014-12-18
Spark是發源于美國加州大學伯克利分校AMPLab的集群計算平臺,它立足于記憶體計算,性能超過Hadoop百倍,從多反覆運算批量處理出發,兼收並蓄資料倉儲、流處理和圖計算等多種計算范式,是罕見的全能選手。 Spark採用一個統一的技術堆疊解決了雲計算大資料的如流處理、圖技術、機器學習、 NoSQL查詢等方面的所有核心問題,具有完善的生態系統,這直接奠定了其一統雲計算大資料領域的霸主地位。 ...