大資料 雲端運算 等搜集的資料

來源:互聯網
上載者:User

標籤:

雲端運算和大資料

http://www.cstor.cn/textdetail_6067.html

http://wenku.baidu.com/link?url=kscWHrJRhI2PdBscQvBmTJTcNcUQpNIk8xFXlkNKWnnTtRLmYPPLBAV4Gp5CmP-H1bQcrCIoxkdSP3XnC3xkDoGWDFyy1R9gJkD9EuyF47q

大資料和雲端運算兩者的區別

http://www.csdn.net/article/2015-09-11/2825674 盤點大資料生態圈,那些繁花似錦的開源項目

雲端儲存技術

開源的分布式檔案存諸系統有GlusterFS、Hadoop 、FastDFS 等等非常多

Tachyon http://www.csdn.net/article/2015-06-25/2825056

Ceph與Swift
Ceph用C++編寫而Swift用Python編寫,效能上應當是Ceph佔優。但是與Ceph不同,Swift專註於Object Storage Service,作為OpenStack組件之一經過大量生產實踐的驗證,與OpenStack結合很好,目前不少人使用Ceph為OpenStack提供Block Storage,但仍舊使用Swift提供Object Storage Service。
Swift的開發人員曾寫過文章對比Ceph和Swift: Ceph and Swift: Why we are not fighting.
Ceph與HDFS
Ceph對比HDFS優勢在於易擴充,無單點。HDFS是專門為Hadoop這樣的雲端運算而生,在離線批量處理大資料上有先天的優勢,而Ceph是一個通用的即時儲存系統。雖然Hadoop可以利用Ceph作為儲存後端(根據Ceph官方的教程死活整合不了,自己寫了個簡潔的步驟Running-Hadoop-on-CEPH),但執行計算任務上效能還是略遜於HDFS(時間上慢30%左右 Haceph: Scalable Meta- data Management for Hadoop using Ceph)。

http://www.chinaz.com/program/2015/0504/403143.shtml 曆經十年:關於Ceph現狀與未來的一些思考

http://www.oschina.net/project/tag/104/storage 不同類別的儲存系統開源項目

Hadoop生態系統

http://blog.csdn.net/woshiwanxin102213/article/details/19688393

Hadoop是一個能夠對大量資料進行分散式處理的軟體架構。具有可靠、高效、可伸縮的特點。

Hadoop的核心是HDFS和Mapreduce,hadoop2.0還包括YARN。

為hadoop的生態系統:

Spark / Storm

http://www.zhihu.com/question/26568496

http://developer.51cto.com/art/201412/460116.htm

Spark基於這樣的理念,當資料龐大時,把計算過程傳遞給資料要比把資料傳遞給計算過程要更富效率。每個節點儲存(或緩衝)它的資料集,然後任務被提交給節點。所以這是把過程傳遞給資料。這和Hadoop map/reduce非常相似,除了積極使用記憶體來避免I/O操作,以使得迭代演算法(前一步計算輸出是下一步計算的輸入)效能更高。Shark只是一個基於Spark的查詢引擎(支援ad-hoc臨時性的分析查詢)

而Storm的架構和Spark截然相反。Storm是一個分布式StreamCompute引擎。每個節點實現一個基本的計算過程,而資料項目在互相串連的網路節點中流進流出。和Spark相反,這個是把資料傳遞給過程。

兩個架構都用於處理大量資料的並行計算。

Storm在動態處理大量產生的“小資料區塊”上要更好(比如在Twitter資料流上即時計算一些匯聚功能或分析)。

Spark工作於現有的資料全集(如Hadoop資料)已經被匯入Spark叢集,Spark基於in-memory管理可以進行快訊掃描,並最小化迭代演算法的全域I/O操作。

http://blog.csdn.net/hguisu/article/details/8454368 使用Storm實現即時大資料分析

大資料的生態系統

http://www.csdn.net/article/2012-12-21/2813066-database-road-map 一張圖讓你知道大資料的生態系統

http://www.aboutyun.com/thread-11944-1-1.html 開源大資料(hadoop生態系統、串流系統等)處理工具匯總

開源雲

http://www.oschina.net/news/54700/most-popular-opensource-cloud-projects 2014 上半年最受歡迎的開源雲項目集合

http://www.chinacloud.cn/show.aspx?id=19743&cid=22 盤點Linux下的開源雲平台

OpenStack Docker KVM

即時資料流處理

http://www.csdn.net/article/2014-06-12/2820196-Storm 即時計算,流資料處理系統簡介與簡單分析

http://www.csdn.net/article/2014-12-09/2823038 在雲上搭建大規模即時資料流處理系統

http://tech.it168.com/a2014/0730/1651/000001651470_all.shtml LinkedIn大資料專家深度解讀日誌的意義

Appendix

http://storm.apache.org/

http://spark.apache.org/

http://hadoop.apache.org/

https://en.wikipedia.org/wiki/NoSQL

http://docs.openstack.org/developer/swift/

http://wiki.apache.org/hadoop/HDFS

http://ceph.com/

大資料 雲端運算 等搜集的資料

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.