대형 데이터 처리를 위한 Hadoop을 사용 해야 하는 이유 5 가지 이유

출처: 인터넷
작성자: 사용자
키워드: 아주 비용

조 http://www.aliyun.com/zixun/aggregation/33805.html "> 밝게, 하 둡의 열렬 한 팬 와 같은 "페타 바이트의 데이터를 처리할 수 있습니다, 수천의 많은 컴퓨팅 작업을 처리 하는 노드를 확장할 수 있습니다 저장 하 고... 매우 유연한 방법으로 데이터를 로드할 수 있습니다" 데이터 처리를 위한 Hadoop을 사랑 하는 그이 내가 인정 하 고 수많은 경우에 있 었 어 요 하지만 그는 대용량 데이터 처리 분석을 위한 Hadoop 배포, 그 전 능 하 신 했다 깨달았다.

Quantivo, joe와 그의 동료는 "탐험 분석 쿼리에 응답 하 둡을 배포 하는 여러 가지", 마지막으로, "그것은 마치 그것이 집 운동 건설에 망치", 되었다 불가능 했다, 그러나 가져 "불필요 한 고통을 말도 비 효율"까지. 조 왜 데이터 분석 Hadoop을 사용 하지 않는 5 가지 이유를 분석 했다: 1: "Hadoop 프레임 워크, 아니라 솔루션 입니다"-그 생각 Hadoop 대용량 데이터 분석, 해결에 즉시 고 효율적으로 작업할 수 있습니다 하지만 실제로 "그것은 간단한 질문에 대 한 가능한." 하지만 어려운 분석 문제에 대 한 Hadoop 신속 하 게 실패 맵/리듀스 코드를 직접 개발 해야 합니다. 이러한 이유로, Hadoop은 Java EE 프로그래밍 환경 비즈니스 분석 솔루션 보다 더. "소위 프레임 워크 의미 당신이 개인 및 비즈니스 관련 개발 및, 위에 구현 할 수 있고 이러한 모든 비용을 필요로 한다."

2: "Hadoop의 서브 프로젝트 하이브 및 돼지는 좋은, 하지만 그들의 건축 한계를 넘어 하지." "-조 제안" 하이브 및 돼지는 비 전문 엔지니어를 사용 하 여 Hadoop 신속 하 고 효율적으로, 일반적인 SQL 또는 Java 맵/리듀스 Hadoop 환경에서 배포할 수 있는 작업으로 분석 쿼리를 변환할 수 있도록 완벽 한 도구. "하이브가 Hadoop을 기반 하는 데이터 웨어하우징 도구는 도움이 됩니다 데이터 집계, 인스턴트 쿼리 및 Hadoop 호환 파일 시스템에 저장 하는 큰 데이터 집합의 분석." 돼지는 고급 데이터 흐름 언어 및 실행을 위한 프레임 워크 병렬 컴퓨팅입니다. 하지만 저자는 "Hadoop 맵/리듀스 프레임 워크의 제한의 일부 발생할 수 있습니다 (이 정렬 및 연결 필요) 노드 간 통신의 경우 특히 비효율성." 주장 "

3: "배포 매우 편리 하 고, 빨리 이며 무료, 하지만 늦은 유지 보수 및 개발 비용 매우 높은"-조는 엔지니어 수 다운로드, 설치 및 게시할 간단한 쿼리를 한 시간 이내 Hadoop은 매우 인기 있는 부정 하지 않는다. 그리고 소프트웨어 비용 없이 오픈 소스 프로젝트로 그것 오라클과 Teradata에 매우 매력적인 대안을 만들. 하지만 같은 범용 많은 오픈 소스 프레임 워크, 그것은 완벽 하 게 맞지 않는 귀하의 비즈니스 개발 및 유지 보수에 넣어 필요가 오픈 소스 프레임 워크 사업을 확인 하려는 경우. 조는 또한 유지 보수 및 개발 단계에 도착 하면 실제의 비용은 생각 Hadoop 명백 하 게 된다. "

4: "파이프라이닝 및 큰 데이터는 매우 효과적인 하지만 특정 분석의 응용 프로그램은 매우 무 섭 다." "-" Hadoop은 잘 분석 하 고 많은 양의 데이터를 요약 또는 다른 응용 프로그램 (예: 검색 또는 텍스트 마이닝)-그것은 무엇을 의미에 대 한 더 효과적 이다는 '파이프라인' 하에 원시 데이터를 변환. 그러나, 만약 당신이 무엇을 분석, 또는 데이터의 패턴을 탐험 하려는 경우, Hadoop 신속 하 게 어려워집니다. "이것은 다시 자체, 비즈니스 및 비즈니스 서비스를 위한 프레임 워크는 그리고도 분석 및 큰 데이터 집합의 데이터의 비즈니스 특성에서 탈피 어렵다." 따라서 분석을 위해 특정, 당신은 아직도 프로그래밍 및 당신의 목표를 달성 하기 위해 MapReduce 코드 실행 시간을 많이 보내고 있다.

5: "성능 좋은 '나쁜' 제외 하 고." "-" Hadoop를 큰 잠재력을가지고 있는 수천의 노드를 통해 병렬 계산 하면 많은 데이터를 분석 해야 할 때. 그러나, 모든 분석 작업 처리할 수 있습니다 쉽게 병렬, 사용자 상호 작용 제어 분석 필요한 경우에 특히. "잘 수행 하려면 아직도 해야 설계 하 고 문제 해결을 위해 특별히 Hadoop 프로그램을 최적화, 그렇지 않으면 그것은 것입니다 느릴." "각 맵/리듀스 작업까지 대기 하는 시간 때문에 이전 작품이 이루어집니다." "그래서, 요주의 경로 같은 속도는 Hadoop 수행 성능에 따라 다릅니다의 느린 mapreduce 작업."

조 결론: "하 둡 하 고 몇 가지 매우 복잡 한 데이터 분석을 위한 훌륭한 도구입니다. 그러나 아이러니 하 게도,, 그것은 또한 이러한 질문에 답변을 하는 작업을 프로그래밍을 많이 필요. "이건 데이터 분석 응용 프로그램에만, 그것은 실제로 선택 균형의 문제를 직면 하는 오픈 소스 프레임 워크의 현재 사용을 반영 한다." 오픈 소스 프레임 워크 또는 코드를 선택 하 고, 생각에 대해 얼마나 많은 유지할 수 있습니다, 얼마나 많은 시간과 비용, 그리고 얼마나 더 효율적. 또한 새의 얼마나 많은 비용이 알고, 이것에 의해, 예를 들어 엔지니어 학습 비용, 개발 및 유지 보수 비용 및 미래의 확장성 생성 됩니다 프레임 워크를 사용 하는 경우 귀하와 팀 그리고 심지어 보안 고려 사항, 오픈 소스 프레임 워크 결함을 업그레이 드 하는 필요를 포함 하 여 잘 알려져 있다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.