큰 데이터와 Hadoop의 사전 배포에 대 한 토론

출처: 인터넷
작성자: 사용자
키워드: 이 해결 수 적합 산책

Hadoop의 응용 프로그램은 "데이터는 귀중 한!", 물론,이 인정을 받고 있다 거의 모든 사람이, 그리고 현실 세계는 이렇게, 우리는 모두에서 시스템 로그, 네트워크 데이터, 사회 정보, 원하는 사용자의 행동, 습관, 같은 귀중 한 정보를 데이터의 광대 한 번호 등., 그리고 이러한 마케팅 효과적인 의사 결정 기준에는 다음 단계. Hadoop의 출현 후 데이터의 발견 더 생생하게 시연 했다, 때문에 특히 잘 알려진 인터넷 회사 사용 하거나 Hadoop 환경에 배포 하기 시작 했다.

이러한 유혹에 직면 하 여 많은 전통적인 기업 사용자 인터넷 비즈니스 관행, 신속 하 게 통합 하 고 기존 데이터의 가치를 찾아보기 위하여 Hadoop의 매우 빠른 배포를 참조 하십시오 싶어요. 하지만 현실은 그는 "이상적인 매우 통 통, 현실을 너무 뼈는" 네트워크 인기 있는 언어의 그 문구 Hadoop, 신속 하 게 배포 하려면 하지만 그리 쉽지. 이유는 같은 문제가 몇 가지 이유에 대 한 생각:

1. Hadoop 우리만 프레임 워크, 아니 완벽 한 솔루션을 제공합니다.

집을 구입 하는 것 처럼 빌더는 항상 인프라로 그것을 제공 하 고 전반적인 혁신 디자인 하 고 구현 하는 그들의 자신의 스타일과 환경 설정, 가족의 머리에 따라 달라 집니다 세대의 각 머리 장식의 부분의 그것의 자신의 정의는. Hadoop 배포 이므로, 각 기업의 Hadoop 환경 고유 라고 할 수 있다 그들의 자신의 데이터 환경에 기업 사용자는 매우 좋은 빗과 이해 필요. 데이터 나 분석 필요 합니까? 어떤 종류의 정보 내가 얻이 필요가 있나요? 어떻게 해야이 정보? 당신이 이러한 문제를 이해 하고자 하는 경우에 것입니다 Hadoop 배포 반영 값. 그리고이 문제의 기술적인 측면 뿐만 아니라 그러나 또한는 인지의 관리 또는 심지어 비즈니스 수준 조정의.

2. 인간의 문제입니다.

Hadoop은 오픈 소스 아키텍처, 오픈 소스는 그것의 자신의 또는 해결 되지 않은 문제, 개발 및 유지 보수 등 오픈 소스 아키텍처 시나리오의 특수성 때문. Hadoop 또한 이러한 문제에 직면 하 고 현재 하 둡 기술로 시장에 상대적으로 몇 사람 있는 이들은 더 많이 배포 하 고 기업에 적용 하기 어려운. 개발 작업의 많은 큰 수 개발자의 필요, 개인의 부족 비용 및 개발에 어려움을 증가 했다.

3.만 문제 분산된 아키텍처에 적합 하 둡에 의해 해결할 수 있습니다.

Hadoop 통치 이며 모든 데이터 분석 문제를 해결 하지 않습니다. 구조화 된 데이터 쿼리 및 분석에 대 한 전통적인 데이터베이스 구조는 그것의 자신의 이점이 있다. Hadoop은 분산된 아키텍처 및 분산된 아키텍처는 "분산된 아키텍처에 적합 한 문제만 확인할 수 Hadoop에 의해" 결정 합니다. 예를 들어 임신 10 임신 여성을 통해 1 개월에는 아기를 가진 보다는 10 월에 아기를가지고 해야 합니다. 최종 분석에서 문제만 자식 문제, 수로 분할할 수 있습니다 그리고 자식 문제는 독립적, 즉, 처리, "키-값" 반복적인 접근 방식을 사용할 수 있습니다 궁극적으로 우리가 필요로 하는 결과 내보낼 밀릴 수 있다. 이러한 문제는 HAODOP 문제를 해결할 수 있습니다.

4. Hadoop은 작은 파일을 처리 하는 데 적합 하지.

사실, 크고 작은 상대 개념은, 거기에 아무 절대 대비, Hadoop 작은 파일 처리에 적합 하지 않습니다 이유 HDFs, namenode 한계에 의해 결정 됩니다 각 파일, 효율성을 향상 시키기 위해 해당 메타 데이터 정보를 저장 하는 Namenode에 있을 것입니다 경우 많은 프로세스의 사용에서이 정보 메모리에 저장 됩니다, 작은 파일의 그것은 namenode 노드 메모리를 많이 소비 및 단일 노드에 대 한 메모리의 확장은 그것의 상한. 반대로, 그것은 상대적으로 큰 경우와 같은 GB 또는 더 큰 파일, 메모리의 상대적 소비 상대적으로 적은 있을 것입니다. 데이터 처리 과정에서 동시에 시스템 오버 헤드가 훨씬 작습니다. 이러한 건축 기능 및 한계 Hadoop은 더 "큰" 데이터 처리에 적합 확인 합니다. 물론, 기술 구현 면에서 과잉은 또한, 그것을 볼 가치가 있다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.