하 둡 빅 데이터 문제에 유일한 해결책이 아니다.

출처: 인터넷
작성자: 사용자
키워드: HTTP 매우 실시간 또는 해결 하기 위해
페이지 1th: 대용량 데이터
에 대 한 욕망

Hadoop은 종종 모든 문제를 해결할 수 있는 유일한 솔루션으로 식별 됩니다. 때 사람들이 "빅 데이터" 또는 "데이터 분석" 및 기타 관련된 문제를 참조 하십시오, 그들은 blurted 대답을 듣게 될 것입니다: hadoop! Hadoop은 실제로 설계 및 다양 한 특정 문제를 해결 하기 위해 내장. Hadoop은 기껏해야 몇 가지 문제에 대 한 나쁜 선택. 다른 문제에 대 한 실수가 될 둡도 수 선택. 데이터 변환 작업, 또는 더 넓게, 추출-변환-로드 작업 (역 자 주: 추출 변환 로드, etl, 데이터 웨어하우스에서 사용할 수 있는 상태 프로세스를 초기 상태에서 데이터의 고전적인 정의), Hadoop 시스템 사용에 많은 이득이 있다 하지만 문제는 다음과 같은 5 종류 중 하나, Hadoop 부적절 한 일 지도 모른다.


1. 대용량 데이터
에 대 한 욕망

많은 사람들이 믿는 그들은 "큰" 데이터, 하지만 이건 보통 경우. 데이터와 대부분의 사람들이 "빅 데이터"를 다루고 있는 생각의 크기를 고려할 때 우리이 연구 논문을 참조 해야 합니다 그리고 아무도 우리에 게 몇 가지 흥미로운 사실을 클러스터 서버 구입에 대 한 해산 될 것 이다. Hadoop은 페타 바이트, 테라 바이트에는 데이터를 처리 하도록 설계 되었습니다 그리고 세계에서 가장 컴퓨팅 작업 100 GB 아래 입력된 데이터 처리. (마이크로 소프트와 야 후는이 통계에 14 기가바이트의 중간값 90% 페이스 북 작업 100 GB 아래 데이터를 다루는 동안) 있습니다. 이 경우에, 수직으로 확장 가능한 솔루션을 확장 (확장) 솔루션을 성능 면에서 뛰어나다 것입니다.


(역 자 주: 경도 확장 스케일 업 일반적으로 추가 또는 메모리, CPU, 하드 디스크 또는 시스템의 전반적인 성능을 달성 하기 위해 한 컴퓨터에 네트워크 장치 등 하드웨어 교체를 말합니다, 수평 확장 (확장) 컴퓨터 클러스터를 추가 하 여 클러스터 시스템의 전체 성능을 향상 하는 것입니다. 이 논문에서는 Hadoop 시스템의 성과 지표를 평가 실험 비교 됩니다. 결론 일부의 경우, 수직 확장 한 컴퓨터에는 컴퓨터 Hadoop 클러스터를 추가 하는 것 보다 효율적입니다. 이 결론 대부분 사람들이 최상의 전반적인 성능을 얻으려면 몇 가지 저렴 한 기계와 함께 할 필요가 Hadoop 시스템의 간단한 지식을 나누기. )


그래서 자신에 게 물어 봐야:


몇 테라바이트의 데이터 있습니까?


나는 안정, 대규모 데이터 입력?


얼마나 많은 데이터 내가 조작 하 고 처리는?

2. 당신은에 큐



는 Hadoop 시스템에 컴퓨팅 작업을 제출할 때, 최소 대기 시간은 1 분입니다. 즉, 시스템 응답 및 관련 제품 권장 사항을 제공 하는 고객의 제품에 대 한 정보를 구입 하 1 분 소요 됩니다. 이것을 60 초 이상 표시 결과 기다려야 컴퓨터 화면에서 보고 아주 충성 하 고 환자 고객 시스템이 필요 합니다. 좋은 솔루션 Hadoop에 관련 된 항목의 미리 계산에 재고 목록에 있는 각 항목을 넣어 것입니다. 다음 웹 사이트, 또는 최대 1 초 이하로 저장 된 결과 액세스 하는 모바일 응용 프로그램을 제공 즉각적인 응답. Hadoop은 사전 컴퓨팅에 대 한 매우 좋은 큰 데이터 엔진. 물론, 데이터를 반환 하는 데 필요한 더욱 복잡 해지고, 전체 사전 컴퓨팅은 비효율적.

자신에 게 물어 봐야 그래서
:

시스템 응답 시간을
사용자의 대략적인 범위는 무엇입니까?


는 컴퓨팅 작업 일괄 처리를 통해 실행할 수 있습니다?


: 저자 사용 해야 고전적인 제품 추천 기능 비즈니스 전자 상거래 웹사이트에 사용 케이스로 Hadoop에서이 기능을 구현 하는 방법을 설명 하기 위해. )

3. 얼마나 문제 될 응답된



Hadoop은 쿼리에 대 한 실시간 응답을 요구 하는 문제에 대 한 좋은 솔루션이 아니다. Hadoop의 연산 작업에 시간이 걸릴 하 고 감소, 그리고 셔플 단계에서. 이러한 프로세스 중 어떤 Hadoop 실시간 요구 하는 응용 프로그램 개발에 적합 하지 않습니다 그래서 한정된 된 시간에 할 수 있습니다. 실용적인 예제는 볼륨이 중된 평균 가격 (거래량이 중 평균 가격, vwap) 선물 이나 주식 시장에 사용의 계산 프로그램은 일반적으로 실시간 거래 시스템 (프로그램 무역), 이다. 이 결과 제공 하는 사용자는 제한 된 시간 내 무역 수 있도록 거래 시스템이 필요 합니다.


(역 자 주: Hadoop의 mapreduce에 셔플 프로세스는 블로그에 대 한 더 자세한 내용은 하나 이상의 reduc 작업을 여러 지도 작업의 결과의 할당 참조 http:// langyu.iteye.com/blog/992916입니다. 사용 사례 여기 주식 또는 선물 거래 투자 은행 과정의 기준 가격을 계산 하는 방법입니다. 내가 생각 할 때마다 데이터 쿼리 응답 시간이 100ms 미만 이어야 합니다이 계산 참조 http://baike.baidu.com/view/1280239.htm, http://baike.baidu.com/view/945603. htm。 이 경우에, 은행을 더 있어야 하는 투자의 xdjm 이라고 믿어진다. )

데이터 분석가 위한
, 그들은 정말 SQL과 같은 쿼리 언어를 사용 합니다. Hadoop 시스템 Hadoop에 저장 된 데이터에 대 한 즉각적인 액세스를 지원 하지 않습니다. 하이브를 사용 하 여 특정 MapReduce 컴퓨팅 작업으로 SQL과 비슷한 쿼리를 변환 수 있도록 하는 경우에 랜덤 액세스 데이터를 Hadoop의 장점 아니다. Google의 Dremel 시스템 (및 확장된, BigQuery 시스템) 초 이내 방대한 양의 데이터를 반환 하도록 설계 되었습니다. 계시 SQL 또한 잘 데이터 테이블 간의 여러 조인 연산을 지원합니다. 실시간 응답을 지 원하는 다른 기술 솔루션 (캘리포니아 대학, 버클리), 버클리 캘리포니아의 상어에서 Amplab 프로젝트 등 스 팅 어 Horntoworks 주도 프로젝트입니다.

자신에 게 물어 봐야 그래서
:


상호 작용 하 고 데이터 액세스는 사용자와 애 널 리스트의 실시간 요구 사항 이란 무엇입니까?


테라 바이트의 데이터에 액세스할 사용자가 원하는 하거나 데이터의 하위 집합에만 액세스 해야 합니까?


우리는 Hadoop 일괄 처리 모드에서 작동을 실현 해야 합니다. 즉, 새 데이터 추가, 전체 데이터 집합에 다시 실행 데이터 처리의 전산 작업. 그래서, 데이터 증가 함에 따라 데이터 분석에 대 한 시간이 증가 합니다. 실제로, 새로운 데이터의 작은 조각에 있는 증가 단일 유형의 데이터 변경, 또는 마이크로 데이터의 업데이트 실시간으로 발생 합니다. 일반적으로, 비즈니스 프로세스는 이러한 이벤트에 따라 결정을 내릴 필요가 있다. 그러나, 아무리 얼마나 빨리 Hadoop 시스템에 데이터를 입력, 그것은 여전히 일괄 처리 Hadoop 데이터를 처리 하는 경우. Hadoop 2.0 원사 MapReduce 프레임 워크는이 문제를 해결 하기 위해 약속 드립니다. 트위터에서 사용 하는 폭풍 플랫폼 다른 가능한, 인기 있는 대안입니다. 분산된 메시징 시스템 Kafka 결합 폭풍 스트리밍 데이터 처리 및 집계에 대 한 다양 한 요구를 지원할 수 있습니다. 통증은 현재 폭풍 부하 분산을 지원 하지 않습니다 하지만 그것은 야 후의 S4 버전에서 사용할 수입니다.


2 페이지:

자신에 게 물어 봐야 그래서
:


시간 내 데이터의 수명 주기는?

얼마나 빨리는 내 비즈니스 필요가 입력된 데이터에서 값을 파생 하는
?

실시간 데이터 변경 및 업데이트에 응답 하는 내 비즈니스에 대 한
얼마나 중요 한가?


실시간 광고 응용 프로그램 및 응용 프로그램을 모니터링 하는 센서의 컬렉션 대류 데이터의 실시간 처리가 필요 합니다. Hadoop 위에 도구 없습니다 이러한 문제를 해결 하기 위한 유일한 옵션. 최근 인디 500에서 맥 라 렌 팀 그들의 아틀라스 시스템에 데이터 분석에 대 한 SAP의 하나 메모리 데이터베이스 제품을 사용 하 고 분석 하 고 실시간으로 레이스에서 얻은 원격 측정 데이터 계산을 다양 한 시뮬레이션을 수행 하기 위해 MATLAB과 함께. 많은 데이터 분석가 Hadoop의 미래 실시간 및 대화형 작업을 지원 하는 능력에 거짓말을 믿습니다.


(역 자 주: 원사는 리소스 관리 및 작업 처리 hadoop2.0, MapReduce http://에 설명 된 대로 실시간 쿼리 및 컴퓨팅 작업을 지원 하면서 MapReduce, 보다 광범위 한 프로그래밍 모델을 자랑 하는 다른에 대 한 새로운 프레임 워크 hortonworks.com/hadoop/yarn/입니다. 폭풍 트위터 주도 오픈 소스 프로젝트, 분산 데이터 처리 시스템, 주요 기능은 수요의 실시간 데이터 처리를 지 원하는 http://storm-project.net를 참조 하십시오 수 있을 것입니다. Taobao 그리고 Alibaba는 폭풍을 사용 하는. 간단한 확장 가능한 스트리밍 시스템, s 4는 야 후에 의해 만들어진 또 다른 실시간 스트림 데이터 처리 분산 시스템 http://incubator.apache.org/s4/을 참조 하십시오. 여기 야 후 S4 및 폭풍 기사, http://blog.softwareabstractions.com/the_software_abstractions/2013/06/ 보다 더 많은 인용 페이지가입니다. Links-comparing-yahoo-s4-and-storm-for-continuous-stream-processing-aka-real-time-big-data.html. 카프카는 아파치, 오픈 소스 프로젝트 http://kafka.apache.org/. 하나는 상용 제품을 SAP에 의해 시작 이며 실시간 대용량 데이터 분석 및 계산을 지 원하는 확장 가능한 메모리 데이터베이스 솔루션입니다. Http://www.sap.com/hana를 참조 하십시오. MATLAB은 과학적 컴퓨팅 제품의 개발에 대 한 개발 MathWorks 회사 www.mathworks.com/products/matlab. 맥 라 렌 팀은 유명한 영국 F1 팀, F1 공식 경쟁에서 매우 성공적인 팀입니다. 그들은 또한 유명한 미국의 인디 500 경주에 참여를 했다. 그들은 큰 사용 하 여 데이터를 처리 하기 자동차 자동차 이야기의 성능을 향상 시키기 위해 데이터 플랫폼 http://blogs.gartner.com/doug-laney/the-indy-500-big-race-bigger-data/
이 문서를 읽을 수 있습니다
4. 난 그냥 내 소셜 네트워크
와 함께 파산


Hadoop, 특히 MapReduce 프레임 워크, 최선의 선택 때 데이터 컨텍스트 또는 암시적 관계 일부 데이터 손실의 두려움 없이 키-값 쌍으로 분해 될 수 있다. 그러나, 데이터 구조와 같은 그래프 포함 다양 한 그래프, 하위 트리의 노드, 무게, 및,의 부모-자식 관계의 가장자리 같은 암시적 관계,이 관계의 모든 노드는 그래프에 나타낼 수 있습니다. 이러한 기능 그래프 알고리즘 각 반복 계산에 현재 그래프의 전체 또는 일부 정보를 추가 하는 데 사용 될 필요 합니다. 이러한 알고리즘은 크게 구현할 수 MapReduce 프레임 워크 구현 될 수 있는 경우에 아니다 매우 로터리 솔루션. 또 다른 문제는 다른 노드를 데이터를 부 러 뜨 리는 전략을 개발 하는 방법. 기본 데이터 구조 작업 중인 그래프 또는 네트워크 인 경우 더 나은 Neoj 또는 덱 스 같은 그래프 지향 데이터베이스를 사용 하도록 선택할 것. 또는 최신 Google Pregel 또는 아파치 Giraph 프로젝트를 공부할 수 있습니다.

자신에 게 물어 봐야 그래서
:


는 데이터의 기본 구조 데이터 자체 만큼 이나 중요?


내가 희망 영감과 통찰력은 데이터의 구조에서 중요 하거나 자체 데이터도 중요 한가?


(역 자 주: Neoj는 상업 및 GPL 듀얼 라이센스 모드 참조 Http://www.neo4j.org/, 덱 스는 상용 제품, Http://www.sparsity-technologies.com/dex를 참조 하십시오. 아파치 Giraph 프로젝트 Http://giraph.apache.org Google Pregel 논문 http://dl.acm.org/citation.cfm? 기반 id = 1807184, Http://kowshik.github.io/jpregel/pregel_paper.pdf의 오픈 소스 구현, 그래프에 추상 될 수 또는 데이터 구조를 네트워크 사회 네트워크 분석을 위한 대용량 데이터 처리 플랫폼입니다. )


5. mapreduce 다이


많은 전산 작업, 작업, 및 알고리즘 MapReduce 프레임 워크를 사용 하 여에 대 한 본질적으로 적합 하지 않습니다. 이러한 문제 중 하나는 이전 챕터에서 해결 되었습니다. 또 다른 문제는 일부 계산 작업 계산의 현재 단계를 수행 하려면 이전 계산의 결과 필요. 수학 예제는 피보나치의 계산 이다. 일부 기계 학습 알고리즘, 그라디언트 등 최대 기대는도 mapreduce 패턴을 사용 하 여 이상적 없습니다. 많은 연구 자들은 특정 최적화 및 (글로벌 상태, 계산에 데이터 구조를 참조), 이러한 알고리즘에 필요한 정책을 구현에 대 한 제안을 준 하지만 특정 알고리즘을 구현 하 둡을 사용 하 여 복잡 하 고 이해 하기 어려운 될 수 있습니다.

자신에 게 물어 봐야 그래서
:


가 내 사업 특정 알고리즘 또는 도메인 관련 프로세스에 대 한 매우 높은 수요를가지고?


기술 팀에는 충분 한 용량 및 자원 분석 알고리즘 MapReduce 프레임 워크를 사용 하 여?


(역 자 주: 수학적 최적화에도 일반적으로 그라데이션 방법, 그라데이션 메서드 사용 HTTP://ZH.WIKIPEDIA.ORG/WIKI/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6을 참조 하십시오 % b 3 %95입니다. 최대 기대 알고리즘, 극대화 기대 알고리즘은 확률 모델과 해당 기계 학습 알고리즘, HTTP://ZH.WIKIPEDIA.ORG/ZH-CN/%E6%9C%80%E5%A4%A7%E6에서 일반적으로 사용 되 %9 c %9 층 % e 6 %9 c %9b %e7% ae %97% e 6% b 3 %95)

또한
, 다른 상황이 고려 될 필요가 있다, 예를 들어 데이터 양이 큰, 또는 dataset, 비록 큰 작은 파일의 수십억의 주로 구성 되어 있으며 (예를 들어, 많은 그래픽 파일 다른 모양에 입력할 필요가) 접합 될 수 없습니다. 우리가 전에 말했듯이 있어, 컴퓨팅 mapreduce에 적합 하지 않은 작업에 대 한 분할 및 병합 원리, 그들을 구현 하 둡을 사용 하 여 만들 수 있습니다 Hadoop 더 사용 하기 어려운.


이제는 우리는 Hadoop은 살펴보겠습니다 있는 Hadoop은 올바른 선택을 하는 상황에 적절 한 시나리오를 분석 했습니다.

스스로 게 물어 여부 해야
조직,


스택 텍스트 형식의 로그 파일에서에서 정보를 추출 하려면?


유용 하 고 구조화 된 포맷으로 가장 구조화 또는 반 구조화 된 데이터를 변환 하려면?


매일 밤 전체 데이터 세트에 실행 되는 컴퓨팅 작업 인가요? (예를 들어 신용 카드 회사 처리 모든 주간 거래 밤)


(와 달리 매일 변화 하는 주식시장의 가격) 다음 계획에 처리 될 결론에 일치 하는 단일 데이터 처리에서 얻은 결론?


경우 모든 위의 대답 "예," 다음 Hadoop으로 탐구 한다.


문제 위에서 언급 한 여러 유형의 비즈니스 문제를 Hadoop으로 해결할 수 있습니다 (비록 많은 산업 보고서 결론 쉽게 Hadoop 시스템의 이러한 유형의 프로덕션 환경에 배포 하는 것)의 상당한 부분을 대표 한다. 일부 컴퓨팅 작업을 위한 Hadoop의 계산 모델은 적절 한. 예를 들어 엄청난 양의 구조화 또는 반 구조화 된 데이터를 다루는 다음 내용을 요약 또는 구조화 된 데이터에는 결과 번역 하 고 다른 구성 요소 또는 시스템에 결과 제공 해야 합니다. 수집 된 데이터의 비트 ID와 해당 콘텐츠를 쉽게 변환할 수 있습니다 경우 (Hadoop의 약관에는 키-값 쌍, 키-값 쌍), 다음이 간단한 연결을 사용 하 여 롤업 계산의 다른 종류를 할 수 있습니다.


일반적으로 키 리소스 있고 해결 하려는 문제의 특성을 이해를 인식 것입니다. 요지 중의 일부는이 문서와 자신의 이해와 이해에서 언급 한, 당신에 가장 적합 한 도구를 선택할 수 있습니다. 경우에 따라 최종 솔루션 Hadoop 아마 이다.
관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.