페이스 북에서 프리즘: 진짜 큰 데이터 프로젝트

출처: 인터넷
작성자: 사용자
키워드: 하지만 구글 데이터 센터 서버

모든 웹 사이트 오늘 페이스 북 5 년 전에 태 클 되는 온라인 데이터의 엄청난 양의 처리 해야 수 있습니다. 페이스 북 기술 소 제이 Parikh이이 사이트는 그들이 보다 대처 하기가 훨씬 말한다.

페이 스 북, 등 많은 인터넷 기업 에너지 분석 고 수만 서버에 온라인 데이터를 처리할 수 있는 소프트웨어 플랫폼 개발에 많은 투자는 지난 몇 년 동안 보낸 때문입니다. "빅 데이터"를 다루는 소프트웨어 완료 될 때이 회사는 결과 공공 만들고 누구나 관심 사용할 수 있습니다.

페이 스 북, 야 후, 같은 Hadoop의 개발에 선구자 이다. Hadoop은 처리 하 고 현대 네트워크에 의해 생성 된 데이터의 방대한을 분석 하기 위한 강력한 소프트웨어 플랫폼. 야 후는 자체 검색 엔진을 구축 하는 데 필요한 인덱스 정보로이 소프트웨어를 시작 하지만 다른 회사 신속 하 게 그들의 자신의 온라인 데이터 분석을 위해 그것을 사용 하 고 그 목표를 달성 하기 위해 hadoop을 개선 하기 위해 계속 했다.

이러한 노력의 결과로, Hadoop 플랫폼은 100PB 보다 더 처리할 수 있습니다 (1 십억 GB) 데이터의. "5 년 전에 우리는 이러한 기술을 사용 하 여 시작 하는 때 있었다 많은 종류에 제한 및 컴퓨팅 속도." 오픈 소스 커뮤니티의 노력으로 이러한 한계와 장벽을 해결 되었습니다, 그래서 사람들이 우리 보다 더 빨리 작업을 수행할 수 있습니다. "Parikh 말했다. 그는 지금 페이스 북을 실행 하는 하드웨어 및 소프트웨어 아키텍처의 거 대 한 수를 관리 합니다.

하지만 페이스 북 지금 직면 하는데, 그것 보다 훨씬 더 많은 데이터 그리고 다양 한 제한 둡 같은 기존 플랫폼에 의해 해결 될 필요가 있다. 리포터의 보고서에서 페이스 북의 먼로 캠퍼스 본부에서 이번 주 Parikh 밝혔다 회사 Hadoop 보다 더 확장 가능한 두 개의 새로운 플랫폼을 개발 했습니다 페이스 북 두 플랫폼을 열 계획 이다.

코로나 라는 첫 번째 플랫폼을 사용 하면 단일 작업에서 추락 되 고 전체 클러스터에 대해 걱정할 필요 없이 많은 둡 서버에서 많은 수 작업의 실행 수 있습니다. 또 다른 더 매력적인 글로벌 데이터 센터를 연결할 수 있는 대형된 Hadoop 클러스터를 실행 하는 프리즘, 라는.

Parikh 말했다 시스템 "하게된다 우리의 요청에 이동 하려면 데이터 여부 오 레 곤 주 Prineville, 노스 캐롤라이나, 또는 스웨덴 숲 도시." "

Hadoop은 Google의 두 종이 대규모 소프트웨어 플랫폼 (원리), Google GFS 빌드를 사용 하 여 MapReduce 플랫폼을 설명 하 여 10 년 전 건축 되었다. GFS 수천 대의 서버에 데이터를 저장할 수 있는 Google의 파일 시스템에 대 한 약어 이며 MapReduce를 사용 하면 모든 서버 컴퓨팅 리소스를 사용 하 여 원하는 결과 계산할 수 있습니다. Hadoop GFs와 같은 작품과 MapReduce Hadoop MapReduce와 HDFs 라는.

두 Hadoop 플랫폼 야 후, 페이 스 북, 같은 회사에 의해 몇 년 동안 사용 되었습니다 하지만 페이스 북은 900 백만 보다 더 많은 사용자가 후에 특히 그들은 완벽 하지 않다. 가장 문제는 "단일 오류 지점" 기능, 어디 전체 클러스터는 클러스터를 관리 하는 주 서버 경우 (적어도 일시적으로) 걸려 있다.

최근 몇 달 동안, 페이스 북을 피하기 위해 단일 지점의 오류 HDFs 플랫폼에 Avatarnode 라는 기술을 개발 하 고 Hadoop 오픈 소스 커뮤니티 유용성 향상 비슷한 하 Namenode 솔루션을 구현 했습니다. 그러나, MapReduce에 단일 지점 실패의 문제가 있다. 이제 페이스 북은 코로나를 통해 문제를 해결 했다.

전통적으로 Mapreduc 코로나 여러 작업 추적기를 생성 하는 동안 서버 클러스터에서 작업을 관리 하는 별도 작업 추적기를 사용 합니다. Parikh 말한다이 도와 증가 전반적인 처리량, 동일한 MapReduce 플랫폼에서 더 많은 작업을 수행 하는 페이 스 북 더 많은 팀 및 제품 클러스터에서 작업을 실행할 수 있습니다.

과거에는, 작업 추적, 문제가 있었다면 그것은 발생할 것입니다 모든 작업 죽을, 시스템에서 모든 것을 다시 시작 해야을 강요. 서버 오류는, 전체 시스템 영향을 받을 것 이다. 지금 그들의 자신의 작업에 대 한 책임은 시스템에 많은 미니 작업 추적 있다.

Tomer 떠나요, 실리콘 밸리 시작 모임의 초기 직원 중 하나는 회사 자료, Hadoop의 버전에 유사한 기능이 고 그는 더 유사한 지적 멀티태스킹 Hadoop의 오픈 소스 버전에서 추적기 구현. 그는 코로나, 그리고 플랫폼에 MapReduce 작업은 훨씬 더 빨리 시작 했다 생각의 버전을 볼 수 없었다.

제이 Parikh 코로나 플랫폼에 대해 거의 하지만 분명히 시스템은 이미 페이스 북에서 사용에서-정말 필요. Parikh는 페이스 북 실행 세계의 최대 Hadoop 클러스터를, 100PB 데이터의 이상 포함 하 고 30 분에 105 TB 데이터를 처리할 수 있다.

그러나이 클러스터 페이스 북에 대 한 충분 한 될 것 이다. 900 백만 사용자 상태를 지속적으로 업데이트 보내기 사진, 동영상, 작성할-알고 데이터 성장 속도. 이 때문에 Parikh 동료 데이터 센터에서 클러스터 프리즘 빌드.

데이터 센터 간 네트워크는 충분히 빨리, 때문에 Hadoop 컴퓨팅은 일반적으로 실행 되지 않습니다 지리적으로 분리 된 데이터 센터 사이. "Hadoop의 큰 단점 중 하나는 모든 서버가 서로 있어야은," 고 말했다. "시스템은 매우 결합, 그리고 수십 마이크로초 서버 간의 대기 시간 증가, 전체 시스템 폭발 느릴 것 이다." "

프리즘은 다릅니다. 즉, 그 전문 자동으로 복제 하 고 컴퓨팅 노드를 필요에 따라 서로 다른 네트워크 간에 데이터를 전송 하는 기능입니다. "여러 별도 데이터 센터를 만들 수 있습니다 하지만 우리는 시스템에서 보고 시스템," 고 말했다. "우리 데이터 비용, 성능 및 기술 요소...에 따라 이동할 수 있습니다. 우리는 더 이상 단일 데이터 센터의 컴퓨팅 파워를 제한입니다. "

프리즘 Google의 스 패너 플랫폼의 연상입니다. 하지 스 패너-Google의 낮은 키 디자인 인프라-하지만 09에 대 한 많은 뉴스, Google는 공개적으로 "저장 및 활용 (디스크 및 컴퓨팅 파워), 데이터 센터의 모든 컴퓨팅 시설 시스템을 설명 데이터의 재배포는 자동으로 복제 하 고 리소스 제약 조건 및 사용 패턴에 따라 계산 됩니다. "

Google는 전세계 36 데이터 센터 취재 플랫폼 기능을 제공 합니다 "는 자동으로 서버에 리소스 할당", 주장 하고있다.

Parikh 인정 프리즘 스 패너, 하지만 그가 스 패너에 대해 많이 알고 하지 않습니다 그 주의 것과 비슷합니다. 그리고 프리즘 삭제 되 면 즉시 데이터 센터에 (다른 센터)에 데이터를 배포할 수 있습니다.

Tomer 떠나요 말한다 같은 플랫폼 구글이 나 페이스 북에 내 에서만 사용 되 고 구현에 열려 있지 않습니다. 하지만 그는 또한 지적 많은 기업 같은 높은 수준의 필요 하지 않습니다, "없음 회사 (데이터) Google에 의해 처리 되는 데이터의 수준에 도달입니다."

페이스 북 없다 실제 배포 프리즘, parikh 명확한 시간을 아직 있다. 하지만 그는 오픈 소스는 것을 말했다. 코로나 시스템 오픈 소스 수도 있습니다. 회사 미래에 하지만 구글과 페이스 북, 같은 너무 많은 온라인 데이터 처리 해야 한다는 사실 이다. "그들은 데이터 규모 성장의 다음 파의도 전에 직면," Parikh 말했다.

(책임 편집기: 루 광)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.