Google 엔지니어는 일반 http://www.aliyun.com/zixun/aggregation/14345.html mapreduce 정의 "> 데이터 처리 프로세스." 하지 수 있다 완전히 MapReduce, 왜 MapReduce 수 "일반"의 진정한 의미를 이해?
최근 연구 스파크, 스파크 코어 메모리 계산을 치워에서 여기만 상관 어떤 불꽃에 대 한 않았다. 스파크에 대 한 모든 작업 포함 하 여 새 데이터 집합 만들기, 데이터 집합, 변환 하 고 데이터 집합을 만드는 데이터 집합 주위 이루어집니다. 데이터 처리 프로세스의 실제 응용에 대 한 이러한 불꽃 데이터 처리 프로세스의 충분 한, 일반 형성 하는 충분 한 집합을 것 같다. 데이터 집합 데이터 집합-간단한 생각에 데이터 집합의 유형에 관계 없이 행동의 대상으로는 true입니다.
MapReduce는 어떨까요? MapReduce는 포기 해야 한다? Hadoop의 MapReduce 프레임 워크 또한 하 둡 기반 실시간 쿼리의 비효율성에 대 한 비판 이다. 내가 이것에 대해 말하고 싶은 것은이 아니다 자체, mapreduce의 하도 다 하지만, 더 중요 한, Hadoop의 mapreduce 프레임 워크의 문제는 mapreduce 하이브 등의 부적절 한 사용의 문제. MapReduce 순수 말했다: "나는 단지 단 하나 바퀴 mapreduce 처리 과정에 대 한 책임, 데이터 원본 및 데이터 행방의 mapreduce 프로세스를 신중 하 게 고려해." "
이제 MapReduce의 철학을 읽을. 실제 데이터는 다양 한, 그리고 정보 시스템에 들어가기 전에 우리가 확인할 수 없습니다 데이터 유용 하거나 우리의 데이터 쿼리 또는 분석 작업을 위한 쓸모 없는 우리만 가장 원래 형태로 수집 될 수 있는 모든 데이터를 저장할 수 있습니다. 다음 순간 온 때 mapreduce 신성. MapReduce는 첫 번째 단계, 지도: 데이터 데이터-키 또는 키의 일부에 속한 어떤 항목을 식별 하는 각 데이터에 대 한 라벨으로 분류. 지도 과정 후 쓸모 없는 데이터 필터링, 이기종 데이터를 균일 하 게, 표시 및 데이터 항목에 따라 그룹화 됩니다. 다음 쿼리 또는 특정 주제에 대 한 데이터를 분석 하려는 경우 하나 이상의 데이터 집합이 항목에 의해 걸릴 수 있습니다. MapReduce는 두 번째 단계 감소: 데이터 감소 쿼리 또는 분석 작업, 출력 쿼리 또는 분석의 구현에 선택한 데이터 결과. Reduce 프로세스 새로운 mapreduce 과정을 시작 하는 재귀적으로 포함 한 것 들을 많이 할 수 있습니다. 가능한 한 멀리, 반환 하지 않습니다 사용자에 게 감소 과정에서로 최종 쿼리 또는 분석 결과 생성 되지 않습니다. 하이브 무슨 짓을 했는지 보세요, 통. 번역 SQL 쿼리 명령을 여러 순차적 mapreduce 프로세스로, mapreduce 프로세스에서 작업을 할 수 없어? 하이브의 실패는 도구 보다는 지도 이념-세속 mapreduce를 걸릴 것입니다!
MapReduce와 스파크, 독점 하지 않습니다, 잘 결합 수 있습니다. 내 개인적인 생각은 불꽃을 사용 하는 mapreduce 줄일 SQL 쿼리와 같은 결과 얻으려면 데이터 집합의 여러 반복을 필요로 하는 작업을 수행 하는 과정.