Time of Update: 2014-12-18
在JAVA Web開發中,經常需要匯出大量的資料到HTTP://www.aliyun.com/zixun/aggregation/16544.html">Excel,使用POI、JXL直接生成Excel, 很容易就造成記憶體溢出了。 1、有一種方式,就是把資料寫成csv格式檔。 1)csv檔可以直接用Excel打開。 2)寫csv檔的效率和寫txt檔的效率...
Time of Update: 2014-12-18
運行SQL Server的微軟客戶將通過Hadoop的引入獲得真正的大HTTP://www.aliyun.com/zixun/aggregation/14345.html">資料處理能力。 微軟已經發佈了早期代碼,讓客戶可以將這個JAVA架構接入到SQL Server 2008 R2、SQL Server Parallel Data Warehouse以及下一代微軟數...
Time of Update: 2014-12-18
從ftp主機取xx資料檔案. 千萬級別只是個概念,代表資料量等於千萬或者大於千萬的資料 本分享不牽扯分散式採集存儲之類的.是在一台機器上處理資料,如果資料量很大很大的話,可以考慮分散式處理,如果以後我有這方面的經驗,會及時分享的. 1、程式採用的ftp工具, 2、千萬級別ftp核心關鍵的部分--列目錄到檔,只要是這塊做好了,基本上性能就沒有太大的問題了. 可以通過a...
Time of Update: 2014-12-18
眾所周知,java在處理資料量比較大的時候,載入到記憶體必然會導致記憶體溢出,而在一些HTTP://www.aliyun.com/zixun/aggregation/14345.html"> 資料處理中我們不得不去處理海量資料,在做資料處理中,我們常見的手段是分解,壓縮,並行,暫存檔案等方法; 例如,我們要將資料庫(不論是什麼資料庫)的資料匯出到一個檔,一般是Excel或...
Time of Update: 2014-12-18
選擇Hadoop的原因最重要的就是這三點:1,可以解決問題; 2,成本低 ; 3,成熟的生態圈。 一,Hadoop説明我們解決了什麼問題 無論國內還是國外的大公司對於資料都有著無窮無盡的渴望,都會想盡一切辦法收集一切資料, 因為通過資訊的不對稱性可以不斷變現,而大量的資訊是可以通過資料分析得到的。 資料的來源途徑非常的多,資料的格式也越來越多越來越複雜,隨著時間的推移資料...
Time of Update: 2014-12-18
開源Apache Hadoop專案一直是個熱門,這對於具備Hadoop及相關技能的IT求職者來說是個好消息。 Matt Andrieux是三藩市Riviera Partners公司技術招聘部門負責人,他告訴我們對Hadoop及相關技能的需求在過去幾年中呈直線上升趨勢。 Andrieux在接受電子郵件採訪時還向我們透露:「我們的分析表明大多招聘企業是初創公司,它們正在招聘大量的工程師來...
Time of Update: 2014-12-18
1. 給定a、b兩個檔,各存放50億個url,每個url各占64位元組,記憶體限制是4G,讓你找出a、b檔共同的url? 方案1:可以估計每個檔安的大小為50G×64=320G,遠遠大於記憶體限制的4G。 所以不可能將其完全載入到記憶體中處理。 考慮採取分而治之的方法。 s 遍歷檔a,對每個url求取 ,然後根據所取得的值將url分別存儲到1000個小檔(記為 )中。 這...
Time of Update: 2014-12-18
Oracle定義了一個BLOB欄位用於保存二進位資料,但這個欄位並不能存放真正的二進位資料,只能向這個欄位存一個指標,然後把資料放到指標所指向的Oracle的LOB段中, LOB段是在資料庫內部表的一部分。 因而在操作Oracle的Blob之前,必須獲得指標(定位器)才能進行Blob資料的讀取和寫入。 如何獲得表中的Blob指標呢? 可以先使用insert語句向表中插入一個空的b...
Time of Update: 2014-12-18
在資料膨脹的當今社會裡,HTTP://www.aliyun.com/zixun/aggregation/13584.html">海量資料中蘊含價值日漸凸顯出來。 如何有效的挖掘海量資料中的有效資訊已經成為各個領域面臨的共同問題。 以互聯網企業為代表的科技公司依據自身的實際需求,開始大量的應用機器學習、資料採礦以及人工智慧等演算法獲取海量資料中蘊含的資訊,並且已經取得了很好的效果。 ...
Time of Update: 2014-12-18
Hadoop是由Apache基金會開發的一個大資料分散式系統基礎架構,最早版本是2003年原Yahoo! DougCutting根據Google發佈的學術論文研究而來。 使用者可以在不了解分散式底層細節的情況下,輕鬆地在Hadoop上開發和運行處理海量資料的應用程式。 低成本、高可靠、高擴展、高有效、高容錯等特性讓Hadoop成為最流行的大資料分析系統,然而其賴以生存的HDFS和MapReduc...
Time of Update: 2014-12-18
當今時代,資料不再昂貴,但從海量資料中獲取價值變得昂貴,而要及時獲取價值則更加昂貴,這正是大資料即時計算越來越流行的原因。 以百分點公司為例,在高峰期每秒鐘會有近萬HTTP要求傳送到百分點伺服器上,這些請求包含了使用者行為和個人化推薦請求。 如何從這些資料中快速挖掘使用者興趣偏好並作出效果不錯的推薦呢? 這是百分點推薦引擎面臨的首要問題。 本文將從系統架構和演算法兩方面全介紹百分點公司在即時計算方面的經驗...
Time of Update: 2014-12-18
全球領先的商業分析軟體與服務供應商SAS公司正在開發一種基於SAS記憶體分析技術,並適用于開源框架Hadoop的互動式分析程式設計環境。 新軟體通過更快地挖掘大資料獲取更精確商業洞察,説明企業提升盈利、降低風險、增進對客戶的瞭解以及創造更多商業成功的機會。 SAS? In-MemoryStatisticsforHadoop能夠讓多使用者同時並交互地管理、挖掘和分析資料,建立和比對模型,以及對Ha...
Time of Update: 2014-12-18
作為大資料技術的典範,Hadoop一直為採用大資料的企業祝福並詛咒著。 Hadoop功能強大,卻非常複雜,這使得很多企業都寧願等待更容易的東西問世,再推出大資料項目目。 等待已經結束。 Hadoop在穩步前進,來自諸如Hortonworks和Cloudera等廠商顯著的易用性增強,使得Hadoop的學習曲線已經減少了一半。 企業正越來越多擁抱大資料和Hadoop,目的是從基本的ETL工作負載...
Time of Update: 2014-12-18
作為大資料技術的典範,Hadoop一直為採用大資料的企業祝福並詛咒著。 Hadoop功能強大,卻非常複雜,這使得很多企業都寧願等待更容易的東西問世,再推出大資料項目目。 等待已經結束。 Hadoop在穩步前進,來自諸如Hortonworks和Cloudera等廠商顯著的易用性增強,使得Hadoop的學習曲線已經減少了一半。 企業正越來越多擁抱大資料和Hadoop,目的是從基本的ETL工作負載...
Time of Update: 2014-12-18
七大誤解:大資料與hadoop 對於Hadoop技術而言,可以說是開源領域的傳奇,然而如今業界還伴隨著一些流言,這些流言可能會導致IT高管們帶著「有色」的觀點去制定策略。 從IDC分析師報告中2013年資料存儲上的增長速度將達到53.4%,AT&T更是聲稱無線資料的流量在過去的5年內增長200倍,從互聯網內容、電子郵件、應用通知、社交消息以及每天接收的消息都在顯著的增長,...
Time of Update: 2014-12-18
當下,「大資料」已成為2013年最火的技術詞彙之一;而在過去一年,這個市場的增速和改變也不可謂不大。 同時,我們還看到了Hadoop及其生態系統的使用門檻從頂尖技術人才到資料科學家的改變。 越來越多的企業擁抱大資料技術,並將其運用到生產環境中。 那麼,在2014年大資料的發展趨勢又會如何,這裡不妨看一下來自CIO的12項預測: 1. 人們不再止步于大資料的談論 2014年,大資料止于說...
Time of Update: 2014-12-18
Hadoop已經通過自身的蓬勃發展證明,它不僅僅是一套用於將工作內容傳播到電腦群組當中的小型堆疊--不,這與它的潛能相比簡直微不足道。 這套核心的價值已經被廣泛證實,目前大量專案如雨後春筍般圍繞它建立起來。 有些專案負責資料管理、有些負責流程監控、還有一些則提供先進的資料存儲機制。 Hadoop業界正在迅速發展,從業企業拿出的解決方案也多種多樣,其中包括提供技術支援、在託管集群中提供按...
Time of Update: 2014-12-18
數年前,當人們談論起新興的NoSQL資料庫技術時,相當一部分觀點認為NoSQL在大資料超市取代傳統關聯式資料庫只是個時間問題。 如今,這一預言並未兌現,Mitchell Kertzman的總經理Hummer Winblad認為,大多數情況下,NoSQL都沒有展現出所謂的革命性。 作為資料庫的老兵,以下是Kertzman在本周的視頻訪談的一些觀點摘錄: 人們需要的其實還是SQL ...
Time of Update: 2014-12-18
當您需要處理大量資料時,存儲它們是一個不錯的選擇。 令人難以置信的發現或未來預測不會來自未使用的資料。 大資料是一個複雜的怪獸。 用 JAVA 程式設計語言編寫複雜的 MapReduce 程式要耗費很多時間、良好的資源和專業知識,這正是大部分企業所不具備的。 這也是在 Hadoop 上使用諸如 Hive 之類的工具構建資料庫會成為一個功能強大的解決方案的原因。 Peter J Jamack 是一...
Time of Update: 2014-12-18
有很多很普及的大資料的觀念需要被質疑,首先一點就是人們普遍認為你可以簡單地利用Hadoop,並且Hadoop便於使用。 問題是,Hadoop是一項技術,而大資料和技術無關。 大資料是和業務需求有關的。 事實上,大資料應該包括Hadoop和關聯式資料庫以及任何其它適合於我們手頭任務的技術。 Rudin說,Facebook的業務模式依賴于其對於超過10億社交媒體使用者的使用者資料和活動資料的處理,...