모두 공공 및 민간 부문에서 조직 및 기업 수집 하 고 "" 더 큰 데이터를 정확 하 게 분석 시장 동향 예측 성공을 보장 하기 위해 현명한 결정을 내릴. 그들은 많은 양의 소스, 일기 예보, 경제 보고서, 포럼, 뉴스 사이트, 소셜 네트워크, 위 키, 짹짹 및 블로그를 포함 한 다양 한 데이터를 분류 하 고 그들의 고객, 운영, 및 새로운 관점에서 경쟁을 이해 하는 추가 데이터 분석. 일부 기업도 사용 하 여 예측 분석 결정 기회와 위험을 그들은 다음 1 개월, 1 년, 또는 심지어 5 년 동안에 발생할 수 있습니다.
그러나, 큰 데이터는 단지에 대 한 기회, 또한 문제를 포함. 전통적인 비즈니스 인텔리전스 (BI) 인프라는 현재 큰, 다양 하 고 빠르게 성장 데이터 스트림 수를 처리할 수 없습니다. 아파치 하 둡 *, 인텔에서 실행® 아키텍처, 가져올 및 대용량 데이터 저장 고 분석을 위해 그것을 사용할 수 있는 저렴 한, 강력 하 고, 확장 가능한 인프라를 제공 합니다. 이 솔루션 목표 값을 달성 하기 위한 견고한 기초를 제공 하 고 성장 거의 무제한 액세스 요구 사항에 맞게 확장할 수 있습니다.
전통적인 ETL의 한계를 깨고
오늘날의 비즈니스 인텔리전스 시스템 다양 한 정교한 기술 사용 하 여 원시 데이터를 온라인 분석 처리 (OLAP), 데이터 마이닝, 프로세스 마이닝, 복잡 한 이벤트 처리, 기업 성능 관리, 예측 분석, 유용한 비즈니스 정보로 변환 하 고 분석을 할당. 그러나, 전에 큰 데이터를 분석할 수 있습니다, 당신은 해야 합니다 추출 및 운영 요구 사항에 맞게 외부 리소스에서 변환 고 그것은 프로세스에 로드 적절 한 프로 파일링 환경을 추출, 변환 및 로드 (ETL) 라는.
큰 데이터는 일반적으로 전통적인 ETL 인프라를 압도. 인바운드 데이터 스트림에 너무 크고 너무 빨리 허용 기간 내 처리에 대 한 성장. 또한, 데이터의 다양 한 도전 이다. 큰 데이터 텍스트 문서, 사진, 오디오, 비디오, 실행 로그 및 센서 등의 다양 한 채널에서 온다. 이러한 구조화 되지 않은 데이터 형식은 기존의 관계형 데이터베이스에 대 한 적절 한 되지 않습니다.
아파치 Hadoop ETL 과제에 대 한 솔루션을 제공할 수 있습니다. Google은 상업 저장 장치를 구성 하는 확장 가능한 산업 표준 서버 클러스터에서 실행할 수 있는 그것의 인기 있는 검색 엔진에 대 한 기술을 개발 했습니다. 분산된 스토리지 및 대규모 병렬 처리, Apache Hadoop 클러스터는 집계 된 구조적된 데이터의 여러 PB를 처리 하기 위해 뛰어난 확장성.
더 큰 효율성을 위해 ETL 인프라의 합리적인 계획
ETL 작업은 끊임없이 변화 그래서 잘 설계 된 Apache Hadoop 클러스터는 가장 경제적인 방법으로 성능 목표를 달성 하는 중요 한. 인텔 아키텍처에 가장 적합 한 솔루션을 구현 하는 데 도움이 옵션의 다양 한 제공 합니다.
• 주류 ETL 작업에 대 한 경제적 성능을 제공 합니다. 비용-이익 관점에서 듀얼 슬롯 서버 기반으로 인텔® 제온™ 프로세서 E5 가족 대부분 Apache Hadoop 작업에 대 한 최고의 선택입니다. 이러한 서버는 높은 성능을 제공 하 고 대규모 다중 프로세서 플랫폼 보다는 분산된 컴퓨팅 환경에 대 한 효율적. 또한, 그들은 보다 효율적인 부하 분산 및 동시 처리량 작은 단일 슬롯 서버에 비해 제공 합니다.
• 더 나은 비용 경량 ETL 작업에 대 한 모델입니다. 일부 ETL 작업 (단순 데이터 분류)는 인텔 제온 프로세서의 처리 능력의 활용에 영향을 받지 않습니다. 일반적으로 실행할 수 있습니다이 가벼운 작업 보다 효율적으로 최신 인텔 기반 마이크로 서버에® 바이브™ 프로세서. 이 서버 수준 프로세서 덜 요구 하는 응용 프로그램 처리에 대 한 효율적인 새로운 데이터 센터 효율성을 제공 하는 6 와트의 전력 소비를 있다.
인텔 제온 프로세서 및 인텔 링 프로세서 자동 검출 및 메모리 오류 수정 하는 ECC 메모리를 지원 합니다. 메모리 오류 데이터 센터에서 데이터 손상 및 서버 다운 타임의 주요 원인 중 하나 이며 잘 설계 된 Apache Hadoop 클러스터는 많은 양의 메모리 (일반적으로 기가바이트 이상의 메모리 서버 당), 그래서 ECC 메모리 된다 필수적인 기능 오류의 위험을 증가.
ETL hadoop을 제거
아파치 하 둡 *, 조직 수 가져올, 프로세스와 여러 종류의 대규모 데이터를 출력.
아파치 Hadoop 클러스터에서 스토리지 성능을 처리 능력으로 중요 하다. 표준 기계 하드 디스크 수량 충분 한 경우에 많은 양의 작업의 처리 수요를 만족 시킬 수 있습니다. 인텔® 솔리드 스테이트 디스크 (인텔®® SSD)는 짧은 대기 시간으로 더 높은 처리량 속도 제공 합니다. 인텔 테스트는 인텔 SSD 교체 기계적인 하드 드라이브를 사용 하 여 성능을 높일 수 있습니다 클러스터에 의해 높은 80%로 보여 줍니다.
또한, 네트워크 성능이 효율적인 가져오기, 처리 및 대용량 데이터 집합의 수출을 보장 하기 위해 중요 합니다. 인텔은 클러스터 성장을 지원 하기 위해 쉽게 확장 하는 데 도움이 되는 저렴 한 하이-대역폭 기가 비트 이더넷 (GbE) 서버 어댑터를 제공 합니다. 클러스터 확장을 계속, 더 빠른 네트워크 인프라에 여러 개의 GbE 스위치 및 업링크를 연결할 수 있습니다.
운영 비용 감소
CIO 설문 조사 2007 년, 2010, 2013 가트너에 의해 실시에 따르면 Cio의 70% 이상 성장 하는 전원 및 냉각 요구 사항을 직면 하는 가장 큰 데이터 센터 과제는 믿습니다. 2 인텔 제온 프로세서, 인텔 링 프로세서와 인텔 SSD의 에너지 효율 데이터 센터 부하와 예산을 줄일 수 있습니다. 또한, 인텔 제공 고급 전력 및 열 관리 응용 프로그램을 Intel® 데이터 센터 관리자 (인텔®® DCM). 인텔 DCM Intel (r) 프로세서에 내장 된 유틸리티를 사용할 수 있습니다. 성능에 영향을 주지 않고 전력 소비 최소화 전체 시설에 개별 서버에서 모든 레벨에서 전력 소비를 모니터링 하는 데 사용할 수 있습니다.
위험을 줄이기 위해
오픈 소스 아파치 Hadoop 소프트웨어를 얻을 수 있다 아파치 소프트웨어 재단에서 무료로. 또한, 향상 된 소프트웨어 배포 사용할 수 있습니다 인텔 같은 부가 가치 대리점에서 무료로. 이러한 향상 된 배포판 추가 기능, 서비스를 제공 하 고 구현을 단순화 하 고 위험을 줄일 수 있도록 패키지를 지원 합니다.
아파치 Hadoop 소프트웨어 인텔® 릴리스는 Apache Hadoop 및 기타 구성 요소를 포함 하는 오픈 소스 제품 향상 및 인텔에서 제공 하는 수정. 이 소프트웨어는 매우 최적화 된 최신 인텔 제온 프로세서, 인텔 SSD 저장 장치, 및 인텔®® 10 GbE 네트워크 어댑터. 테스트 보여 페더레이션된 플랫폼 30 시간 덜 최적화 된 하드웨어 플랫폼에서 실행 하는 범용 Apache Hadoop 소프트웨어 보다 더 효율적입니다.
인텔 배포판 등 주요 기업 요구 사항에 대 한 통합된 지원을 제공 합니다.
• 데이터 기밀성입니다. 하드웨어 가속 암호화 및 세부적인 제어를 사용 하면 안전 하 게 보안, 규정 준수, 또는 성능에 영향을 주지 않고 민감한 데이터 형식을 통합 하 수 있습니다.
• 확장성 그리고 가용성입니다. 멀티 사이트 확장성 및 적응형 데이터 복제 통합을 단순화 하 고 중요 한 데이터에 액세스할 수 있는 통찰력을 항상 확인.
• 고급 분석입니다. R (오픈 소스 응용 프로그램 정적 분석을 수행 하는 데 사용할 수 있는)에 대 한 통합 지원과 Intel® 그래프 작성기 데이터 분석가 하 고 개발자가 큰 데이터에서 더 높은 가치를 얻을.
• 서비스, 지원 및 교육 인텔은 광범위 한 온라인 교육 리소스와 전문 지원을 계획, 구현, 및 인텔의 분포에 따라 Apache Hadoop 배포 유지 관리를 제공 합니다.
결론
큰 데이터 모든 산업에 새로운 비즈니스 기회와 도전을 제공합니다. 데이터 통합 (전통적인 비즈니스 인텔리전스 환경에 소셜 미디어와 다른 느슨한 데이터 통합)의 과제는 Cio와 그것에 대 한 가장 심각한 압박이 문제 관리자. 아파치 Hadoop 쉽게 가져오기 및 대용량 데이터의 분석을 위한 경제적이 고 확장 가능한 플랫폼을 제공합니다. 전통적인 ETL 제거 hadoop 프로세스 수 시간 분석 시간을 줄일 또는 일.
Hadoop 클러스터를 효율적으로 실행 최고의 서버, 스토리지, 네트워크 및 소프트웨어 인프라를 선택 해야 합니다. 인텔은 디자인 하 고 큰 데이터 ETL 최적화에 대 한 효율적, 높은-성능 Hadoop 클러스터를 배포할 수 있도록 소프트웨어 및 하드웨어 플랫폼 구성 요소를 제공할 수 있습니다. 또한, 인텔의 참조 아키텍처, 교육, 전문 서비스, 및 배포를 가속화 하 고 위험을 줄일 수 있도록 기술 지원 제공.