아파치 촉발 큰 데이터 필드에 다음 큰 녀석은?

출처: 인터넷
작성자: 사용자
키워드: 매우 큰 데이터 그리고

저자 관찰 그 http://www.aliyun.com/zixun/aggregation/14417.html "> 아파치 스파크 최근 발행 하는 몇 가지 특이 한 이벤트 databricks $를 제공 합니다 14 M USD 지원 스파크, 스파크를 지원 하기 위해 cloudera 결정, 스파크 대용량 데이터 분야에서 큰 문제를 간주 됩니다.

좋은 첫 인상

저자 몇 시간 동안, 그가 스칼라의 api (스파크 스칼라를 사용 하 여) 처리 되어 믿고, 진실, 당신에 게 매우 인상적 이었다 처음에는 불꽃 너무 작고 좋은 모습 때문에. 기본 추상화 탄력적인 분산된 데이터 집합 (RDD) 이며 HDFs 통해 Hadoop에 저장 될 수 있는 로컬 파일 정의에 따라 스칼라 스타일 지도 foreach 함수 작업을 제공 하는 배포판의 크게 불변 세트.

첫 반응은 "기다려,이 기본적인 분산된 컬렉션은?" "Hadoop 수, 분산된 파일 시스템 보다 훨씬 더 많은 것, 특히 감소를 지도, 다양 한 데이터 형식, 데이터 원본, 단위 테스트, 클러스터 변형, 지원, 및 등을 지원."

물론, 스파크도 조인, 그룹화, 또는 감소 하 여 작업, 복잡 한 데이터 흐름을 모델링할 수 있는 등 좀 더 복잡 한 작업을 지원 합니다.

시간이 흐르고, 그것은 불꽃의 단순 Hadoop에 대 한 Java API 분명 되었다. Hadoop에서 당신의 케이스의 가장 간단한 것도 코드의 많은 있다. 하지만 개념적으로 Hadoop은 간단한 두 가지 기본 작업, 병렬 마오와 감소 작업을 제공 하기 때문에. 만약 당신이 유사한 분산된 컬렉션의 일부에 대 한 동일한 방식으로 표현는, (와 같은 끓 프로젝트를 실제로 구축 하는 것 들이, 같은 코드 촉발 하 매우 유사)만 작은 인터페이스가입니다.

자체를 설득 하기 위해 저자는 연구 하 고 실제로 특별 한 일련의 작업을 제공 하는 불꽃, RDD는 스파크, 불변 집합의 유사한 배포의 기본 빌딩 블록입니다 발견 했다. 지도 호수 foreach 작업은 병렬로 실행 하 고 두 rdd 및 집합에 대 한 공통 키를 기반으로 조인 작업을 구현 하기 쉽다. 또한 집계를 구현 하는 사용자 정의 기능을 사용할 수 있습니다 키를 기반으로 하는 작업을 줄일 수.

단어 개수 등에서 수 텍스트의 단락에 있는 모든 텍스트를 지도 고 단어, 그들을 줄일 수 있으며 마지막으로 단어의 숫자를 합계. Rdd는 Hadoop의 대부분은 디스크 기반 보다 훨씬 빠른 성능 향상를 디스크에서 읽고 다음 메모리에 머물 수 있다.

흥미롭게도,는 스파크 무정 접근. 대신 영구 또는 검사점 중간 결과, 스파크 기억의 dataset을 일으킨 작업 순서 (북서쪽 참고: 시리즈 이벤트 발생 상태를 기억 하는 eventsourcing와 유사한). 따라서 한 노드에 오류가 발생 하는 경우 스파크 저장된 데이터 집합 다시 작성 합니다. 그들은 다른 노드 도움이 될 것입니다 때문에 이것은 실제로 나쁜 생각 다시. 그래서, 본질적으로, 기본적인 기본 hadoop, 스파크 (여전히 수 있는 미래 부), 보다 작은 인터페이스는 하지만 표현력의 유사한 수준을 달성 하는 (예: 트위터의 끓 일) Hadoop 위에 많은 프로젝트가 있다. 다른 주요 차이점은 그 불꽃도 반복 알고리즘의 실행을 수 있도록 자연스럽 게 성능 향상에서 결과 메모리에 기본적으로입니다. 그러나 스파크에는 내장 된 반복 지원,, 그것은 단지 그들은 주장 그것은 너무 빨리 하려는 경우 반복을 실행할 수 있습니다.

스파크는 또한 매우 좋은 디자인을 설명 하는 파일 데이터 흐름 처리 모델 함께 제공 됩니다. 스파크는 따라서 트위터의 폭풍 프레임 워크에서 다릅니다. 폭풍은 기본적으로 파이프 독립적인 이벤트로 밀어를 분산 방식으로 결과 얻을. 대신, 스파크 이벤트는 수집 하 고 짧은 간격 (5 초 마다 가정)에서 일괄에서 처리. 수집 된 데이터는 RDD를 되 고 불꽃 응용 프로그램의 공통 집합을 사용 하 여 처리 됩니다.

이 패턴은 5 초 간격은 일반적으로 충분히 빨리 대부분의 응용 프로그램 보다 느린 노드 및 내결함성에 대 한 더 강력한. 분산 컴퓨팅은 매우 복잡 하 고, 항상 그리고 그것은 확실히 사실이 방법은 잘 실시간 스트리밍 프로세스 통합을 비 실시간 스트림 부분을 사용 하기 때문에이 대 한 확신 아니에요.

RDD, 때문에 일부 데이터 항목에 작은 변화를 만들 필요가 있다면, 전체 데이터 집합의 복사본을 할 수 있는 기록 중 복사 구현을 기반 비용 있다 병렬, 하지만 물론 효과가 있을 수 있습니다 더 여기에, 하지만 아직 구현.

원본 링크: http://www.jdon.com/46098

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.