hadoop-큰 데이터 달링 거래

출처: 인터넷
작성자: 사용자
키워드: 그들은 큰 데이터

큰 데이터 성장의 주요 드라이버 모바일 장치 및 소셜 네트워크, 종이 기반 문서의 디지털화와 과학적 데이터의 성장의 극적인 성장을 포함 됩니다. "그들의 아카이브 파일은 성장 고속 무슨 저장 하 고 있는 저장 될 필요가 없습니다 그들은 모르기 때문 에" 롭 Peglar, EMC의 Isilon 회사에서 미국 최고 기술 책임자 말했다.

다양 한 산업에서 회사는 빅 데이터 분석에 돈 많이 투자 하 고 있다. 한 산업은 진단 및 치료 환자 데이터를 분석 하 여 의료 산업이 이다. Peglar 말했다는 금융 서비스 업계에서 데이터의 질적 분석은 또한 관심사. 에이 관계, 지저분한 주식 거래 데이터의 분석. 제조 및 디자인 산업에 큰 데이터 분석의 응용 프로그램은 또한 증가 했다, 하지만 빠르게 성장 하는 시장 소셜 미디어 및 전자 상거래 산업 시장 정보 정보를 얻기 위해 사용자 동작 데이터를 분석 하 여.

hadoop-큰 데이터 달링 거래

많은 큰 데이터 분석 플랫폼 가운데 가장 잘 알려진 Apachehadoop 플랫폼입니다. 이것은 분산 컴퓨팅을 위한 오픈 소스 소프트웨어 프레임 워크 이다. Hadoop은 Google의 MapReduce 소프트웨어 프레임 워크 및 Google Google 파일 시스템에 대 한 사용 하 여 독점적인 파일 시스템에서 유래. Hadoop 프로그램에서 참가자는 야 후, 링크 드 인, 페이 스 북, 트위터, 캘리포니아 대학, 버클리, 및 Last.fm 포함 됩니다.

대용량 데이터 분석 요구의 성장을 크게 지저분한 데이터에 의해 구동 됩니다는 무엇 인지 Hadoop에 좋은. "이것은 기존의 구조화 된 데이터베이스에 대 한 보충," Peglar 말했다. "하지만 구조적된 데이터, 성장 지저분한 데이터 증가 훨씬 빠릅니다." "

Isilon, Teradata, 또는 Oracle 같은 회사에서 큰 데이터 응용 프로그램을 배포할 수 있습니다, 하지 않는 한 그것은 회사 상용 하드웨어에 hadoop과 같은 분석 플랫폼의 컴퓨팅 인프라 배포 됩니다 높습니다. "Hadoop 인프라 플랫폼에 대 한 몇 가지 가정을 실행 했다" Rachelchalmers, 451 그룹 수석 애 널 리스트는 말했다. "

Hadoop의 MapReduce를 기반으로, 때문에 Google의와 비슷한 동종 상업 인프라에서 실행 되도록 구상입니다. 또한, 그것은 어떤 Cpu 서버 하드 디스크 스토리지, "Chalmers 설명 사용 됩니다 알고.

대용량 데이터 처리에 대 한 아니 공통 플랫폼

어떤 유형의 분석 시스템 배포 되는 고객의 특정 요구에 따라 달라 집니다. Jimdietz, 제품의 감독 Teradata 데이터 분석에 있는 주요한 회사에 마케팅 일부 고객 필요 그들은 필요가 보다 처리 속도 더 말한다. 이 경우에, 그들은 초 고성능 응용 프로그램을 구입 합니다. 원하는 고객을 위해 저장 하 고 사용자 행동 데이터의 수천의 분석, 그들은 솔루션을 다양 한 데이터를 저장 하 고 높은 처리 성능이 필요 합니다.

스토리지 전문 업체, "우리는 더 큰 데이터 공급 업체, 아니라 경쟁 보다 협력 제품 아키텍처 다르기 때문에." 하드 디스크 제조자를 제공할 전문 스토리지, 스토리지 전문 제조 업체에 하드 디스크 제조업체 하나 이상의 하드 드라이브를 저장소 공급 업체에 제공 될 것입니다 그것은 저장소 공급 업체의 작업 데이터 저장, 교환, 분석 및 보호의 많은 수의 위쪽 끝에는 응용 프로그램 시스템에 이러한 기본 스토리지 미디어를 통합 하는 것입니다.

또한, 회사에 의해 배포 솔루션 디자인 미래의 강력한 성장 요구 사항에 맞게 충분히 유연 해야 합니다.

큰 데이터 의미 높은 밀도

Peglar 대형 데이터 센터 관리자 (특히 지저분한, 큰 데이터)의 배포에 영향을 미칠 수 있는 기본 요소 저장소는 말했다. 이러한 스토리지 배열의 크기 및 전원 요구 사항을 에너지와 사용 가능한 저장 공간을 사용 하 여에서 그들의 효율성에 따라 달라 집니다.

대용량 데이터 분석을 구현 하는 계획

"예를 들어 IT 직원이 필요 합니다 이러한 비즈니스 단위 Hadoop, 결과 없는 부서는 관심이 같은 큰 데이터 응용 프로그램을 배포할 필요가 있는지 보기 위하여 사업 단위와 상담을." "콜트 말했다입니다. "특정 비즈니스 요구 사항, 응용 프로그램 없이 그냥 간단한 기술 된다." "

큰 데이터 분석을 시작 했습니다 회사는 금융 서비스 및 의료 부문 동향 및 우수 사례, 졸에 많은 데이터를 사용할 수 있는 콜트 말한다.

Theinfopro 회사 그들의 기술 계획 문제에 대 한 그것의 수백 프로 요청 매년 마다 인기 있는 기술 지 설문 조사를 실시 합니다. 회사의 최신 조사 활동 실시 했다 2011 년 8 월에서에서 4 월이 올해.

당연히, 응답자 서버 가상화 기술을 엔터프라이즈 용량 성장의 주요 드라이버로 하 고 파이버 채널 San은 엔터프라이즈 데이터 저장소의 기본 목표. 응답자의 67% % 생산 서버의 80% ~ 100% 파이버 채널 San에 연결 했다 그들은 말했다.

드라이브 용량 성장

그러나 지난 1 년,, 파이버 채널 하드 드라이브 시장 타격으로 했다 SAS, SSD, SATA 드라이브는 점차 기업 지배.

응답자의 48% % 파이버 채널을 구입 했다 그들은 말했다 경우 어떤 새로운 디스크 저장 장치는 2011 년에 구매 되었다, 드라이브, SATA 드라이브에 대 한 31%와 19 %sas, 2 %SSD 솔리드 스테이트 하드 드라이브에 대 한. 그러나, 이들이 기업은 올해 구입한 장비에 대 한 질문, 41% % 말했다 그들은 SAS 드라이브, 35 %SSD 솔리드 스테이트 드라이브, 23 %SATA 드라이브와 파이버 채널으로 11%를 구입 했다.

2011 년에 기업에 의해 구입한 드라이브 종류

설문 조사는 SSD 기술 배포를 계획 하는 회사의 수 뛰어 7%에서 지난해 37% 올해 발견.

"이것은 매우 큰 도약, 모든 후, 이들이 회사 하지 전에 SSD 솔리드 스테이트 드라이브를 사용 하 여 계획." 이 비율은 42%에서 23%로 떨어졌다. "커트 했다.

혼합된 배열 및 SSD 솔리드 스테이트 드라이브

대부분의 엔터프라이즈 데이터 센터 새 데이터 센터는 고체 배열 및 서버 SSD 솔리드 스테이트 드라이브의 전체 하이브리드 배열 SSD 솔리드 스테이트 드라이브의 회전 디스크를 사용 합니다. EMC는 경쟁자 앞서 서 잘 솔리드 스테이트 하이브리드 배열의 첫 번째 공급 업체. EMC에 따라 넷 앱, 히타치 데이터 시스템 (히타치), IBM, HP, 오라클, 델 있습니다.

어떤 공급 업체의 제품에는 하이브리드 배열 솔리드 상태 드라이브를 사용 하는?

물었을 때 어떤 공급 업체 제공 솔리드 스테이트 스토리지 서버, 퓨전-io 목록을, IBM, HP, 오라클, 델, Seagate에 의해 따라 이었다. EMC는 NetApp 배후에 후행는 목록에 아홉 이다.

설문 조사 것으로 나타났다 최고 단단한 공급자: 퓨전-io, Purestorage, Nimbusdata, Nimblestorage, Gridironsystems 및 코브. 모든 장비는 DRAM을 생산, 뿐만 아니라 코브 또한 인터페이스 플래시 카드 및 모든 플래시 배열 또는 가전 제품을 판매 하고있다.

솔리드 스테이트 서버의 기본 업체 퓨전-io, IBM, HP, 오라클, Dell 다음 이다. 씨 게이트는 6 위를 차지 했다입니다.

때 그들은 모두 플래시 배열 구현 경우, 응답자의 7% 86% % 구현 계획 했다 하는 동안 그들은 이미 기술를 사용 했다 고 말했다. 또한, 응답자의 4% 그들은 모두 플래시 배열 구매 계획 하지만 다음 6 ~ 18 개월 시간에 있어야 했다. 응답자의 2%는 18 개월 후 계획 구현 것 이라고 말했다.

Mattwotters, 미쓰비시 파워 시스템 아메리카 지점에 대 한 회사의 인프라의 건축가 하지 Theinfopro의 조사에서 포함 되었다. 하지만 그는 그의 회사는 모든 플래시 배열을 설치 Nimbusstorage에서 지난해 12 월 그들의 기업 SAP 환경에서 I/O 침체 주소로.

Wotters 처음 SAP 서버, 최대 용량, 메모리를 업그레이드의 모든 프로세서의 두 번째 세트를 투입 했지만 문제가 지속. 그는 마지막으로 SAP 데이터베이스 및 HP Eva 배열에 의해 당시 채택 된 성능 문제를 축소를 기본 저장소 로드 데이터의 TB 크기에 돌아갔다. 에 바에 SSD의 비용을 증가 하는 것은 모든 플래시 어레이 사는 것 보다 더 비싼, Wotters는 말했다.

후광 회사의 배열 2TB의 저장 용량 40000 달러에 대해 비용을 지 원하는 그는 말했다.

후광의 우수한 빠른 플래시 스토리지 배열 데이터베이스의 병목을 제거 하 고 또한 인하 다시 4 시간에서 시간에 바에 15 분의 새로운 플래시 배열에.

"지금까지, 난 되었습니다 매우 성능 만족." 하나의 잘못이 없는 것입니다. "그는 말했다. 난 배열의 아침에, 오후 온라인 될 수 있습니다. 그것은 간단입니다. "

Wotters 환경 응용 프로그램을 격리 플래시 스토리지: SAP. 그러나, Theinfopro 회사 조사에 발견 자동으로 계층 데이터를 또는 배열에 개별 드라이브 유형 간의 데이터를 마이그레이션할 수 뜨거운 스토리지 기술 되었다.

자동 레이어 링-고성능 솔리드 스테이트 드라이브, 데이터를 이동 하거나 데이터 액세스 주파수 감소로 높은 용량, 낮은 성능 디스크를 하드 디스크에서 이동 합니다.

"기본 구성 요소 중 하나 이며 디스크 드라이브는 선택 된 플랫폼은 해당 디스크 공간 사용 효율," Peglar 말했다. 현재, 전력 밀도 큰 데이터 분석 플랫폼의 배포에서 컴퓨팅의 주요 초점 및 디스크 배열의 전력 소비는 점점 관심의 초점을 그는 말했다.

이 초점 필요한 스토리지 배열의 크기 및 이러한 스토리지 요구의 성장 율 때문에 주로 이다. Peglar는 단지 몇 년 동안, 일부 고객의 클러스터 증가 1 바이트 (페타 바이트)에서 5 바이트 (페타 바이트) 발견.

큰 데이터 계산 노드 배포의 밀도 매우 높은 수 있습니다. 이러한 배포의 전원 밀도 3kW를 도달할 수 있다 또는 더 높은, Peglar 말했다. 이것은 전력 및 냉각 인프라 사양을 데이터 센터 관리자를 위한 중요 한입니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.