번역: 캐디 왕 (Wang Nanan)
큰 데이터를 알고 싶어 하지만 당신은 육 포 용어에 대해 아무것도 몰라? 시장 및 큰 데이터를 응용 프로그램을 알고 싶은 하지만 설명도 없고 좋은 경우? 걱정 하지 마세요, Wikibon 지역 사회에서이 작은 책 당신을 돕고 싶어.
예, 이것은 작은 책 보다는 한 기사 때문에 상세 하 고에서 수 있도록 세심 한는 완전히 모르는 큰 데이터 기술 및 그것의 개념에 익숙한 될 평 신도의 관련된 응용 프로그램 및 "내부 보행자"의 의미 그래서 중대 하다!
번역기 캐디 왕 Nanan 번역 하는 것이 작은 책 결함 또한 친구 요청 포인트를 해결 하기 위해 노력을 많이 보냈다. 우리는 여러 기사에 그것을 분할.
-세계 넓은 데이터 관찰, 노래
주요 내용
· 1 큰 데이터 선언문에서 Wikibon 지역 사회 · 2 데이터 처리 및 분석: 전통적인 모드 · 큰 데이터 · 자연에 3 변화 4 새로운 방식의 데이터 처리 및 분석 4.1 Hadoop4.2 NoSQL4.3 대규모 병렬 분석 데이터베이스 · 큰 데이터 방법 · 5 complementarity 6 큰 데이터 공급자 개발 상태 · 7 큰 데이터: 실제 사용 사례 · 8 큰 데이터 기술 격차 · 9 큰 데이터: 회사 및 공급 업체에 대 한 다음 단계는 Wikibon 커뮤니티
에서 큰 데이터 선언
회사에 효과적인 비즈니스 분석 도구와 기술을 제공 하는 최고 정보 책임자의 우선 순위입니다. (기본 고급 데이터 마이닝 및 예측 분석을 보고)에서 효과적인 비즈니스 분석 데이터 분석가 및 비즈니스 사람들은 데이터에서 통찰력을 얻을 수 있도록, 행동으로 번역 될 때 회사에 대 한 더 큰 효율성과 수익성으로 이어질 수 있습니다.
모든 비즈니스 분석 기반 데이터는. 전통적인 의미에서 조직 생성 및 계정 데이터베이스에서 고객 데이터를 CRM 시스템, ERP 시스템, 운영 데이터와 금융 데이터 등 자체 구조화 된 데이터를 저장 하는 것이 즉. 소셜 미디어와 (예: 페이 스 북, 트위터), 네트워크 서비스의 인기 덕분에 데이터 센서 및 네트워크 장치, 컴퓨터와 인간의 생성 온라인 거래 및 구조화 및 반 구조화 된 데이터의 다른 원본 최대 상업적인 가치 추구에서 발생 하는 근처 실시간 분석에 대 한 수요와 기업에서 기존 데이터의 유형과 볼륨 급속 하 게 증가 하 고. 우리는이 큰 데이터를 호출합니다.
전통적인 데이터 관리 및 비즈니스 분석 도구 및 기술 기업 큰 데이터 분석에서 통찰력을 얻을 수 있도록 새로운 방법을 떠오르고 있다 하는 동안 큰 데이터 로부터 압력을 받고 있습니다. 이러한 새 메서드는 데이터 처리, 분석 및 전통적인 도구와 기법에서 완전히 다른 방식으로 응용 프로그램. 이러한 새로운 방법 오픈 소스 프레임 워크 둡, nosql 데이터베이스 (예: 카산드라와 Accumulo) 및 대규모 병렬 분석 데이터베이스 (예: EMC의 Greenplum, HP의 수직 및 Teradata 애 스 터 데이터)를 포함합니다. 즉, 기업도 기술과 문화 두 가지 관점에서 분석에 그들의 접근을 재고 하 필요.
대부분의 회사에 대 한이 쉽지 않다, 그러나 기업에 변화를 수용 하 고 큰 데이터 그들의 비즈니스 분석 관행의 초석, 대 한 그들은 겁 많은 경쟁 중요 한 경쟁 우위를 해야 합니다. 큰 데이터 지원 복잡 한 비즈니스 분석 행동 및 휘발성 시장 환경, 그들이 신속 하 고 그들의 경쟁자 보다 더 효율적인 데이터 기반 비즈니스 결정을 내릴 수 있도록 고객에 대 한 전례 없는 통찰력을 가져올 수 있다.
큰 데이터의 출현 하드웨어, 소프트웨어, 및 저장 하 고 프런트 엔드 데이터 시각화 도구를 최종 사용자에 게 신선한 통찰력을가지고 큰 데이터 처리를 지 원하는 서버 사이드 기술에서 서비스 공급자를 위한 중요 한 기회를 제공 한다. 회사는 이러한 공급 업체 비즈니스 가치 또는 개발 기술 및 서비스를 큰 데이터 진짜, 번 창 하는 사례를 사용 하는 큰 데이터 제공 여부 큰 데이터 실무자, 전환.
큰 데이터는 모든 산업에 새로운 권위의 경쟁 우위. 회사와 큰 데이터는 냄비에 플래시 생각 기술 제공 업체 찾을 것입니다 곧 자신 앞서 생각 하는 사람이 경쟁을 따라 잡으려고 노력 필요. 우리의 의견에, 그들은 매우 위험 하다입니다. 이해 하 고 큰 데이터 현실을 포용 하는 기업, 새로운 혁신, 높은 유연성과 높은 수익성에 대 한 가능성은 거의 무한 합니다.
데이터 처리 및 분석: 전통적인 방법으로
전통적으로, 특정 분석 목적에 대 한 데이터 처리는 상당히 정적 청사진에 근거한 다. 일반 비즈니스 프로세스를 통해 조직 CRM, ERP, 금융 시스템 등 응용 프로그램을 통해 안정적인 데이터 모델에 기반 하는 구조화 된 데이터를 만듭니다. 추출, 변환, 데이터 통합 도구를 사용 하 고 있는 데이터 품질 검사 및 데이터 정규화 할 수 있습니다, 준비 영역을 엔터프라이즈 애플리케이션과 트랜잭션 데이터베이스에서 데이터를 로드 및 데이터는 결국 깔끔한 행 및 테이블에 꽃무늬. 이 모델링 하 고 제거 데이터 엔터프라이즈 데이터 웨어 하우스에 로드 됩니다. 이 과정 정기적으로, 매일 또는 매주, 그리고 때로는 더 자주 발생합니다.
전통적인 데이터 처리/분석 소스 그림: Wikibon 2011
일반적인 데이터 웨어하우스, 데이터 웨어하우스 관리자가 일정, 주기적으로 창 고, 표준화 된 데이터를 계산 만들고 비즈니스 단위에 결과 보고서를 할당 합니다. 그들은 또한 관리자를 위한 대시보드 및 기타 제한 된 기능 시각화 도구를 만듭니다.
동시에 비즈니스 분석가 데이터 분석 도구를 사용 하 여 데이터 웨어하우스의 고급 분석을 수행 또는, 일반적으로, 데이터 볼륨 제약으로 인해 로컬 데이터베이스에 샘플 데이터를 가져옵니다. 비 전문 사용자가 기본 데이터 시각화 및 데이터 웨어하우스 프런트 엔드 비즈니스 인텔리전스 도구 (SAP 됩니다. 그리고 IBM Cognos)를 통해의 제한 된 분석. 대용량 데이터의 데이터 웨어하우스 리소스를 소비 하 고 성능 저하 때문에 전통적인 데이터 웨어하우스 작은 몇 테라바이트의 데이터를 있다.
큰 데이터
의 속성 변경
웹, 모바일 장치, 그리고 다른 기술의 출현은 데이터의 성격에 근본적인 변화를 주도하 고 있다. 큰 데이터는 "전통적인" 엔터프라이즈 데이터에서 그것을 구별 하는 중요 하 고 독특한 기능이 있습니다. 더 이상 중앙, 높은 구조, 및 관리, 데이터는 지금 매우 분산, 느슨하게 (해당 되는 경우에 구조) 구조와 그 어느 때 보다 더 큰 크기에서.
특히:
· 웹, 모바일 장치, IT 인프라, 그리고 다른 소스에 의해 생성 되는 데이터의 볼륨의 금액은 매년 곱해집니다. 구조화 되지 않은 텍스트 데이터와 반 구조화 된 데이터 (예: 소셜 미디어 데이터, 위치 기반 데이터 및 로그 파일 데이터)를 포함 한 데이터 형식의 형식 증가 다양성. 속도-고 마 워 디지털 거래, 모바일 컴퓨팅 및 인터넷 및 모바일 장치 사용자의 높은 수를, 새로운 데이터를 생성 하 고 실시간 분석에 대 한 필요 증가.
광범위 하 게 말하기, 큰 데이터를 포함 한 여러 소스에서 생성 됩니다.
· 소셜 네트워크와 미디어: 700 백만 이상의 페이 스 북 사용자가, 250 백만 트위터 사용자, 156 백만 공공 오픈 블로그 있다. 모든 업데이트, 짹짹, 그리고 블로그 게시물 및 댓글 페이스 북에 여러 가지 새로운 데이터 요소 (를 포함 하 여 구조화, 반 구조화 및 구조화 되지 않은) "데이터 배기" 라고도 하는 만듭니다. · 모바일 장치: 5 십억 이상의 휴대 전화는 사용 전세계. 각 전화, SMS 및 인스턴트 메시지 데이터로 기록 됩니다. 모바일 기기, 특히 스마트폰 및 태블릿, 소셜 미디어, 응용 프로그램을 사용 하 여 쉽게 확인 하 고 소셜 미디어를 사용 하 여 데이터를 많이 생성. 모바일 장치는 또한 수집 및 위치 데이터 전송. · 온라인 거래: 수십억의 온라인 쇼핑, 주식 거래 및 수많은 자동된 거래를 포함 하 여, 매일에. 각 거래는 소매 유통 업체, 은행, 신용 카드, 신용 기관 및 기타 기관에 의해 수집 된 데이터 포인트의 많은 수를 생성 합니다. 장치 및 센서 네트워크: 각 작업을 기록 하 반 구조화 된 로그 데이터를 생성 하는 다양 한 유형의 전자 장치 (서버와 다른 IT 하드웨어, 스마트 미터, 및 온도 센서 포함).
그림 2-큰 데이터 소스 대 전통적인 데이터: Wikibon 2011
시간 또는 비용 이익에서 일반적인 데이터 웨어하우스 및 기타 데이터 관리 도구 수 달성 하지 대형 데이터 처리 및 분석 작업. 즉, (깔끔한 행과 데이터의 열), 관계형 테이블에 데이터를 조직 해야 합니다 그리고 엔터프라이즈 데이터 웨어하우스를 처리할 수 있습니다. 그것은 필요한 시간과 인력 비용 구조화 되지 않은 데이터의 엄청난 금액을이 구조를 적용 하입니다. 또한, 잠재적인 PB 수준 데이터에 맞게 전통적인 엔터프라이즈 데이터 웨어하우스 확장 새로운 전용된 하드웨어에 거 대 한 투자를 요구 한다. 데이터 로딩의 병목 때문에 일반적인 데이터 웨어하우스 성능 영향을 받을 것 이다.
따라서, 처리 및 대용량 데이터 분석을 위한 새로운 방법 필요 합니다.
계속 될 2 부를 참조 하십시오: 읽기 해야 합니다! 큰 데이터: Hadoop, 비즈니스 분석 및 더 많은 (2)