그것은 할 수 있다 큰 데이터는 IT 업계에서 가장 뜨거운 동향의 한 개 오늘, 그리고 그것 큰 데이터를 다루는 기술의 새로운 배치를 양산 했다. 새로운 기술의 최신 버즈 단어를 가져왔다: 약어, 전문 용어 및 제품 이름. 심지어는 문구 "빅 데이터" 자체 게 사람 현기증. 많은 사람들이 "빅 데이터"를 듣고, 그들은 그것은 "많은 데이터"를 의미 하 고 큰 데이터의 의미에만 데이터의 양을 포함 하지 않는 생각 합니다.
여기에 우리가 생각 하는 당신이 알고 있어야, 사전순으로 정렬 하는 몇 가지 인기 있는 단어입니다.
산 성
산의 전체 이름입니다 원자성, 일관성, 격리, 고 영구, 실제로 요구 사항 또는 특성: 처리 하는 동안 데이터베이스 트랜잭션의 데이터 무결성을 보장 수 있는 모든 4 개의 측면을 준수 하는 경우. 비록 산 몇 시간 동안 사용할 수 있다, 트랜잭션 데이터의 급속 한 성장 큰 데이터를 다룰 때 산 요구 사항에 맞게 필요에 더 많은 관심을 집중 했다.
큰 데이터의 세 가지 요소
오늘날의 IT 시스템 생성 데이터를 숫자, 속도, 그리고 다양 한에서 "거 대 한".
번호: IDC는 올해 총 글로벌 정보 도달할 것 이다 2.7 킬로바이트 (2.7 십억 바이트에 해당) 인 고 2 년 마다 견적.
속도: 그것은 단지 그것이 관리자 두통, 하지만 흐른는 금융 시스템, 소매 시스템, 웹 사이트, 센서, 무선 주파수 식별 (RFID) 칩와 페이스 북과 트위터 소셜 네트워크에서 데이터의 데이터의 번호가 아닙니다.
카테고리:가 면 다시 5 년 또는 어쩌면 10 년 전, IT 담당자는 주로 협력 영숫자 데이터를 쉽게 깔끔하게 배열된 행과 관계형 데이터베이스에서 열에 저장 될 수 있습니다. 그것은 더 이상 그 같은입니다. 오늘,와 같은 구조화 되지 않은 데이터 짹짹 페이스 북 게시물, 다양 한 문서 및 웹 콘텐츠는 큰 데이터 믹스의 일부입니다.
열 유형 (또는 열) 데이터베이스
오픈 소스 카산드라와 같은 차세대 데이터베이스 및 HP의 수직 데이터베이스의 일부는 기존의 SQL 데이터베이스를 같은 행에 저장 하는 대신 열에 데이터를 저장 하도록 설계 되었습니다. 이 디자인 빠른 디스크 액세스 속도 제공 하 고 큰 데이터를 작업할 때 성능이 향상 됩니다. 데이터 집약적인 비즈니스 분석 응용 프로그램에 대 한 열 데이터베이스는 특히 인기입니다.
데이터 웨어하우스
데이터 웨어하우징의 개념 약 25 년 동안에, 특히 비즈니스 분석 응용 프로그램 시스템에 대 한 2 차 오프 라인 데이터베이스에 여러 개의 운영 IT 시스템에서 데이터의 복제에 대 한 주위 되었습니다.
하지만 데이터 웨어하우징 시스템 빠르게 변화는 데이터의 양을 극적으로 증가. 데이터 웨어하우스 관리 큰 문제 이므로 더 많은 데이터와 더 많은 종류의 데이터를 저장 해야 합니다. 10 또는 20 년 전, 데이터 웨어하우스 시스템 주간 또는 월간 단위로 데이터를 복제할 수 있으며 오늘 데이터 웨어하우스 업데이트 훨씬 더 자주 그리고 가끔은 심지어 실시간으로 업데이트.
ETL
추출, 변환 및 로드 (ETL) 소프트웨어는 은행 응용 프로그램 트랜잭션 시스템, 비즈니스 분석을 위한 데이터 웨어하우스 시스템 같은 다른 데이터베이스를 지 원하는 데이터베이스를 한 데이터베이스에서 데이터를 전송할 때 사용 됩니다. 때 데이터를 한 데이터베이스에서 다른 전송 됩니다, 그것은 종종 포맷 하 고 데이터를 청소 하는 데 필요한입니다.
데이터의 급속 한 증가로 크게 가속 처리 속도, ETL 툴의 성능 요구 사항을 크게 개선 되었습니다.
수조
수조의는 Hadoop 데이터로 채우는 데 사용 되는 (다른 기술 등 HBase, 하이브, Oozie, 돼지, whirr) Apache Hadoop의 큰 가족에 속하는 기술 이다. 기술을 사용 하 여 소프트웨어 에이전트 응용 프로그램 서버, 웹 서버, 모바일 장치, 그리고 다른 시스템에 분산 데이터를 수집 하 고 Hadoop 시스템에 데이터를 전송.
예를 들어 회사 트위터에서 데이터 분석에 대 한 게시물 수집 하는 웹 서버에서 실행 중인 아파치 수조를 사용할 수 있습니다.
지리적-공간적 분석
큰 데이터 스트림을 운전 추세는 지리 공간 데이터 생성 및 오늘에 의해 수집 된의 성장 수의 IT 시스템. 으로 속담, 그림에 정보의 양을 1000 단어 가치가 있다, 그래서 그것은 더 많은 지도, 차트, 사진 및 다른 위치-기반 콘텐츠는 오늘날의 큰 데이터 폭발의 주요 드라이버.
지리적-공간적 분석은 데이터 시각화의 특별 한 형태 이다 ("시각화" 아래 참조), 사용자가 큰 데이터 분석의 결과 더 명확 하 게 이해할 수 있도록 지도에 데이터를 다루는.
둡
Hadoop은 분산된 데이터 집약적인 응용 프로그램을 개발 하기 위한 오픈 소스 플랫폼. 그것은 아파치 소프트웨어 재단에 의해 제어 됩니다.
Hadoop의 발명가 야 후의 개발자 더 그 커팅, Google 실험실, 그의 아들의 장난감 코끼리를 명명의 MapReduce 개념에 따라 Hadoop를 개발.
또한, HBase 하 둡 프로젝트의 일환으로 개발 된 비 관계형 데이터베이스입니다. 하 둡 분산 파일 시스템 (HDFS) Hadoop의 핵심 구성 요소입니다. 하이브는 Hadoop 기반 데이터 웨어하우스 시스템입니다.
인-메모리 데이터베이스
컴퓨터는 트랜잭션 처리 또는 쿼리 실행, 그것은 일반적으로 디스크 드라이브에서 데이터를 가져옵니다. 하지만 그것은 대용량 데이터를 처리 하는 시스템, 과정은 너무 느릴 수 있습니다.
메모리 내 데이터베이스 시스템 자주 사용 하는 저장소 데이터, 따라서 처리 시간을 크게 단축 컴퓨터의 메인 메모리를 사용 합니다. 메모리 데이터베이스 제품 SAP 하나 및 Oracle 시간 10 인-메모리 데이터베이스를 포함합니다.
자바
Java는 Sun, Oracle, 지금 가입 하 고 1995 년에 발표에 의해 개발 된 프로그래밍 언어입니다. Hadoop 및 많은 다른 큰 데이터 기술을 사용 하 여 Java, 여전히 큰 데이터 분야에서 주요 개발 기술 개발 된다.
카프카
카프카는 링크 드 인, 서비스 웹 사이트 (사이트 사용에 데이터)의 활동 흐름을 관리 하 고 조작 (서버 구성 요소 성능)에 대 한 데이터 처리 파이프라인에 원래 개발 높은 처리량 분산 메시징 시스템입니다.
카프카 대용량 스트리밍 데이터를 처리 하는 데 매우 효과적 이며 많은 큰 데이터 컴퓨팅 환경에서 주요 문제는 데이터를 스트리밍. 트위터에 의해 개발 된 폭풍 처리 기술 흐름의 또 다른 종류 이다.
아파치 소프트웨어 재단 오픈 소스 프로젝트로 카프카를 나열 하고있다. 그래서 그것의 결함이 소프트웨어를 생각 하지 않습니다.
지연 시간
대기 시간 지연 수 또는 다른 한 지점에서 데이터를 전송 하는 과정에서 지연 응용 프로그램 처럼 시스템, 다른 시스템에 응답 이다.
대기 시간 데이터 볼륨 성장 하 고 IT 시스템 속도 유지 하는 투쟁에 새로운 용어 아니다, 하는 동안 당신은 종종 지금 더 많은 용어 들. 간단히 말해서, "낮은 지연 시간" 좋은 것이 고 "높은 대기 시간"은 좋지.
매핑/단순화
매핑/단순화 (맵/리듀스)이 이렇게 복잡 한 문제를 작은 조각으로 분할 여러 컴퓨터에 배포 하 고 다음 한 대답으로 재조합을 포함 한다.
Google의 검색 시스템 매핑/단순화의 개념을 사용 하 여, 회사는 MapReduce 프레임 워크에 대 한 브랜드 이름.
2004 년에 google 출판 백서 매핑/단순화의 그것의 사용을 설명 합니다. Hadoop, Doug O Katyn의 아버지의 잠재력을 충분히 인식 이며 또한 매핑/단순화의 개념을 빌려 Hadoop의 첫 번째 버전을 개발 했습니다.
NoSQL 데이터베이스
가장 주류 데이터베이스, Microsoft SQL Server, Oracle 데이터베이스 등 개발 및 데이터 관리를 위한 구조적 쿼리 언어 (SQL)를 사용 하 여 관계형 아키텍처를 기반으로 합니다.
하지만 "NoSQL" (어떤 사람들 지금 전화 NoSQL "뿐 아니라 SQL") 라고 하는 데이터베이스 시스템의 새로운 세대는 제안자는 믿는다 더 대용량 데이터 처리에 적합 한 아키텍처에 기반 합니다.
일부 NoSQL 데이터베이스는 문서 및 기타 구조화 되지 않은 데이터도. NoSQL에 더 효과적인 반면 확장성과 유연성을 향상 하도록 설계 되었습니다. 전형적인 NoSQL 데이터베이스 포함 하 둡/hbase, 카산드라, MongoDB 및 Couchdb, 그리고 Oracle 등 일부 유명 개발자가 이미 자신의 NoSQL 제품을 시작 했습니다.
Oozie
아파치 Oozie는 Hadoop의 처리를 관리 하는 데 도움이 오픈 소스 워크플로 엔진. Oozie와 함께 작품의 시리즈 MapReduce, 돼지 등 여러 언어에 정의 고 서로 연관 될 수 있습니다. 예를 들어 작업 응용 프로그램에서 데이터를 수집 하는 작업 완료 되 면, 프로그래머는 데이터 분석 쿼리 작업을 시작할 수 있습니다.
돼지
돼지는 아파치 소프트웨어 재단, 큰 데이터 집합을 분석 하기 위한 플랫폼의 또 다른 프로젝트입니다. 매우 자연, 돼지는 Hadoop에서 실행 되는 병렬 컴퓨팅 쿼리를 개발 하는 데 사용할 수 있는 프로그래밍 언어입니다.
양적 데이터 분석
양적 데이터 분석 금융 설명 하기 복잡 한 수학 또는 통계 모델 및 비즈니스 행동의 사용에 참조 또는 심지어 미래 행동을 예측.
양적 데이터 분석이 되고있다 더 복잡 한 데이터 수집된 극적인 증가 때문에 오늘. 하지만 회사에 막대 한 양의 데이터를 사용 하 여, 더 나은 시정, 사업에 대 한 통찰력 및 시장 동향에 대 한 통찰력을 얻을 하는 방법을 안다면 더 많은 데이터 데이터 분석에 더 많은 기회를 가져올 것으로 예상 된다.
한 가지 문제 분석 기술 가진 사람들의 심각한 부족 이다. 맥킨 지, 유명한 컨설팅, 미국 1.5 백만 분석가 대용량 데이터 분석 기술 관리자가 필요 말한다.
(편집기: 유산)