페이스 북 데이터 전문가: Hadoop은 충분히 큰 데이터를 처리

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터를 위해 당신은 할 수 있다

맨먼저 단순히 하 둡을 사용 하 여 및 그 Hadoop은 사용 하기 쉽고, 심문 하는 큰 데이터에 대 한 인기 있는 아이디어를 많이 있다. 문제는 Hadoop은 기술, 및 큰 데이터 및 기술 관련 되지 않습니다. 큰 데이터는 비즈니스 요구 사항에 관련 되어 있습니다. 사실, 우리의 작업에 적절 한 다른 기술 뿐만 아니라 Hadoop 및 관계형 데이터베이스, 대용량 데이터 포함 해야 합니다.

Rudin는 사용자 정보의 처리에 의존 하는 페이스 북의 비즈니스 모델 및 활동 데이터 제공 하는 이상의 1 십억 소셜 미디어 사용자에 대 한 타겟 광고를 말한다. 그러나, Hadoop 아니다 항상 우리가 필요가 있는 무엇을 할에 대 한 최고의 도구.

예를 들어 Hadoop, 데이터 집합의 넓고 탐구 분석 하는 것 이지만 관계형 저장소 더 나은 아직 발견 하지 않은 것의 분석을 실행에. 하 둡은 데이터 집합에서 낮은 수준의 세부를 찾는 좋은 하지만 관계형 데이터베이스는 변환 및 데이터의 요약을 저장 하기 위한 더 많은 의미. 결론은, 그래서 당신이 무엇 필요에 대 한 적절 한 기술을 사용 해야 합니다.

또 다른 가설은, 대용량 데이터의 간단한 행동 분석 귀중 한 가치를 제공은 그: "문제는 분석 사용할 수 있는 질문에 지적인 답변을 준다." 그것은 여전히 옳은 일을 예술입니다. 페이스 북은 실행 그들의 분석 작업, 통계에는 박사를 얻을 뿐만 아니라 비즈니스에 능숙 하려면 올바른 사람을 고용에 집중 되었습니다.

때 인터뷰 직원은 "어떻게 우리가 계산 이", 대신, 한다 그들에 게 가장 중요 한 표시기를이 경우에 연구 하 고 그들에 게 비즈니스 사례에 집중 하지 말라. 기업도 육성 하려고 한다, 모두 분석에 참여.

Rudin, 페이 스 북 실행 한 내부 "데이터 훈련 캠프"에 따르면 직원 2 주 동안 분석 하는 방법을 가르치는 프로젝트. 제품 매니저, 디자이너, 엔지니어 및 심지어 금융 직원 참석에 초대 됩니다. 모든 사람의 참여의 중요성은 각 사람이 데이터 문제 및 다른 문제를 논의 하기 위해 공통 데이터 언어를 사용할 수 있습니다.

페이스 북은 또한 방법 통계학자 바뀌고 비즈니스 팀 구성 됩니다. 통계학자 남아 독립, 그들은 앉아서 이니셔티브를 복용 하는 대신 그들에 게 응답 하는 사업 부문에서 요청을 기다리는 경향이 있습니다. 그러나 통계학자는 사업부에 배치 됩니다, 당신은 여러 그룹 중복 방법으로 문제를 해결 하기 위해 노력할 것입니다 발견할 것 이다.

페이스 북 애 널 리스트 비즈니스 팀에 배치 되는 "임베디드" 모델을 채택 했다 하지만 그들은 작업의 중복을 방지할 수 애 널 리스트의 높은 수준으로 보고 있다.

기술 및 방법의 방법에 대 한 Hadoop 결합 하 고 큰 데이터, 데이터 전문가 Anoop 한 번, 일반적으로, 최종 결과, 데이터를 얻기 위해서 하는 처리 하 고 여러 데이터 집합을 추가 하 여 함께 연결 된 다른 문서에서 언급 한을 처리 합니다. Hadoop을 여러 데이터 집합을 추가 하는 많은 방법이 있다. MapReduce 지도 끝 및 감소 끝에 데이터 연결을 제공합니다. 이러한 연결은 중요 하 고 매우 비싼 작업을 수 있습니다. 돼지와 하이브 또한 여러 데이터 집합을 연결에 적용 하는 동일한 기능이 있다. 복제 연결, 결합 연결 및 간접 연결 (괴상 한 조인)를 제공 하는 돼지 고 하이브 지도-측면 연결 및 데이터를 분석 하는 전체 외부 연결을 제공 합니다. 중요 한 사실은 mapreduce, 돼지, 통 등 다양 한 도구를 사용 하 여 데이터 사용할 수 있는 그들의 기본 제공 기능 및 실제 요구에 따라 이다. 많은 양의 Hadoop에 데이터 분석에 관해서는 Anoop 포인트, 세계에서 어디에 큰 데이터는 / hadoop, 몇 가지 문제가 되지 않을 수 있습니다, 그리고 솔루션은 단순 하지만 과제는 데이터의 양을. 이 경우에, 다른 솔루션은 문제를 해결 하기 위해 필요 합니다. 일부 분석 작업 순위 사용자와 특정 날짜 범위 내에서 저장된 된 데이터를 변환 하는 로그 파일에서 명확한 Id의 수를 계산 하는. 이러한 작업의 모든 다양 한 도구와 Hadoop MapReduce, 하이브, 돼지, Giraph, 및 Mahout 같은 기술을 통해 해결할 수 있습니다. 이러한 도구는 사용자 지정 루틴의 도움으로 그들의 기능을 확장할 수가 있다.

사실, 또한 일부의 이유가 왜 하 둡 데이터 분석에 적합 하지 않습니다 전문가 조 밝게, Rudin으로 같은 의견을 보유 하 고에 따르면 포함:

"Hadoop 프레임 워크, 아니라 솔루션 입니다"-그가 생각 하는 둡 빅 데이터 분석, 해결에 즉시 고 효율적으로 작업할 수 있습니다 하지만 실제로 "괜찮아요 간단한 질문에 대 한." 하지만 어려운 분석 문제에 대 한 Hadoop 신속 하 게 실패 맵/리듀스 코드를 직접 개발 해야 합니다. 이러한 이유로, Hadoop은 Java EE 프로그래밍 환경 비즈니스 분석 솔루션 보다 더. "소위 프레임 워크 의미 당신이 개인 및 비즈니스 관련 개발 및, 위에 구현 할 수 있고 이러한 모든 비용을 필요로 한다."

하위 하이브 Hadoop의 돼지는 좋은, 하지만 그들은 그들의 건축 한계를 초과 하지 않습니다. "-조 제안" 하이브 및 돼지는 비 전문 엔지니어를 사용 하 여 Hadoop 신속 하 고 효율적으로, 일반적인 SQL 또는 Java 맵/리듀스 Hadoop 환경에서 배포할 수 있는 작업으로 분석 쿼리를 변환할 수 있도록 완벽 한 도구. "하이브가 Hadoop을 기반 하는 데이터 웨어하우징 도구는 도움이 됩니다 데이터 집계, 인스턴트 쿼리 및 Hadoop 호환 파일 시스템에 저장 하는 큰 데이터 집합의 분석." 돼지는 고급 데이터 흐름 언어 및 실행을 위한 프레임 워크 병렬 컴퓨팅입니다. 하지만 저자는 "Hadoop 맵/리듀스 프레임 워크의 제한의 일부 발생할 수 있습니다 (이 정렬 및 연결 필요) 노드 간 통신의 경우 특히 비효율성." 주장 "

조를 마칩니다 "Hadoop은 몇 가지 매우 복잡 한 데이터 분석을 수행 하는 훌륭한 도구". 하지만 아이러니? 예, 그것은 또한 이러한 질문에 답변을 하는 작업을 프로그래밍의 많은 필요 합니다. "이건 데이터 분석 응용 프로그램에만, 그것은 실제로 선택 균형의 문제를 직면 하는 오픈 소스 프레임 워크의 현재 사용을 반영 한다." 오픈 소스 프레임 워크 또는 코드를 선택 하 고, 생각에 대해 얼마나 많은 유지할 수 있습니다, 얼마나 많은 시간과 비용, 그리고 얼마나 더 효율적. 또한 새의 얼마나 많은 비용이 알고, 이것에 의해, 예를 들어 엔지니어 학습 비용, 개발 및 유지 보수 비용 및 미래의 확장성 생성 됩니다 프레임 워크를 사용 하는 경우 귀하와 팀 그리고 심지어 보안 고려 사항, 오픈 소스 프레임 워크 결함을 업그레이 드 하는 필요를 포함 하 여 잘 알려져 있다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.