이 문서에서는 클라우드에 대용량 데이터 서비스를 확장 하 고 R 언어와 비슷한 도구를 사용 하 여 대용량 데이터 분석을 수행 하는 방법을 설명 합니다. 이 문서에는 간단 하 고 큰 데이터 서비스는 디지털 사진 관리의 종류 세부 사항, 그리고 검색의 핵심 요소 분석, 분석 및 기계 학습 구조화 되지 않은 데이터에 적용 됩니다.
이 문서에 초점을 맞추고 큰 데이터를 사용 하 여, 대용량 데이터 분석 및 비즈니스 인텔리전스에 이러한 개념을 결합 하는 방법 뒤에 기본 개념을 설명 하는 응용 프로그램 (BI) 응용 프로그램 그리고 컴퓨터 비전 (CV) 같은 병렬 기술 및 기계 학습 방법에 설명 된 클라우드 확장 시리즈의 3 부.
큰 데이터 분석 및 비디오 분석의 차이 처리 되는 데이터 형식의 폭 이며, 대화형 분석 및 검색 도구를 제공 하는 데이터 마이닝 또는 사용, MapReduce 방법 보다 더 복잡 한 수 있으며 Google BigQuery 보다 훨씬 긴. 예를 들어 Google BigQuery 압축을 대규모 구조화 되지 않은 데이터에 대 한 대화형 검색 열 검색을 사용 합니다. 사실,는 "내부 보고 Google BigQuery," Google은 그냥 수십 초, BigQuery 정규 표현식 텍스트 약 35 십억 행 20 결핵을 포함 하는 큰 로그 테이블에 일치 하는 수행할 수 있습니다 설명 했다. 도구의 MapReduce 기능 이상, 실행 하지만 정교한 데이터 감소.
Google 계정이 있는 모든 사용자는 BigQuery를 사용할 수 있습니다. 또는 일반적인 큰 데이터 검색을 신속 하 게 이해 하려면 내 사진 다운로드 Google 이미지에 그들을 업로드. (IBM, 콜로라도 주립 대학, 볼 더, 등)에서 내 이미지를 포함 하는 모든 동일한 페이지를 얻어야 한다 긍정 하나 이상의 오류를 포함 하 여. 나는 주로 되도록 다운로드 이미지 적절 한 사진 명성을 다시 사용 권한 부여 된이 예를 사용 합니다. 다른 예제 여기 분석, 처럼이 예제는 실제로 더 더미 데이터의 수백만 될 것입니다 하는 구조화 되지 않은 데이터 힙 있는 정보의 유용한 조각에 대 한 보고는 큰 데이터의 본질을 보여 줍니다.
큰 데이터 정의
큰 데이터를 폭넓게 정의 하 여 캡처, 관리, 및 쿼리할 수 있는 관계형 데이터베이스 관리 시스템-종종 구조화 되지 않은 파일, 디지털 비디오, 이미지, 센서 데이터, 로그 파일에서 일반적인 구조적된 데이터 범위 데이터를 분석 하 그리고 거의 모든 데이터를 명확 하 게 검색 필드와 레코드에 포함 되지 않은. 의미에서 구조화 되지 않은 데이터는 흥미로운 데이터 이지만 합성 또는 구조화 된 데이터와 연결 되지 않은 경우 그것에서 추론 하기 어렵습니다.
큰 데이터도는 새로운 소스, 시스템에서 생성 된 파일 (로그 파일 또는 센서 네트워크), 모바일 장치 (비디오, 사진 및 텍스트 메시지) 등이 데이터를 통해 컴퓨터에 전송 데이터를 사물의 인터넷의 상태는 함 대 항공기 그룹 유지 보수 계획, 또는 일반적인 원격 모니터링에 보고 있습니다. 이 데이터를 분석 하는 한 가지 방법은 데이터 볼륨의 특성을 분석 하는 것입니다. IBM 견적 25000 조 (quintillion) (2,500,000,000,000,000,000) 바이트의 데이터는 매일 작성 됩니다. 두 번째는 속도, 그리고 데이터 전송 속도 증가 하 고 있다 네트워크 대역폭 증가 (지금 일반적으로 기가바이트-별 요금, GigE, 10g, 40g, 100g, 보다는 MB와 같은). 3 이제 더 구조화 되지 않은 데이터 형식, 디지털 비디오 스트리밍 및 센서 데이터, 로그 파일 등을 포함 하는 범주입니다. 마지막으로, 데이터, 또는 있는 데이터는 신뢰할 수 있는 데이터의 큰 금액에 따라 중요 한 결정을 만들기 위해 오는 때 학위의 진위는 고속에서 수집 됩니다. 데이터는 실제로 위조, 손상 되지 않은 알고 쉽지 않다 또는 의도 소스에서-예를 들어 데이터 보안 카메라의 수천 중 하나에서 올 수 그리고 시간 당 비디오의 프레임의 수천을 생성 하는 각 카메라. 그래서 더 나은 그들을 이해 하는 큰 데이터, 응용 프로그램 및 시스템의 주요 측면의 목록을 확인 합니다.
아마도 큰 데이터를 이해 하는 가장 좋은 방법은 검토 하는 그것의 역사, 포브스 잡지입니다. 물론, 큰 것으로 간주 되 고 데이터의 크기는 지금 하루 이상 2.5 EB의 속도로 성장 하고있다. 흥미롭게도, 대부분의 데이터는 절대 쳐다 인 간에 의해 (미국 인구 조사에 따르면 7 십억 사람들이 있다 전 세계 체크 아웃 정보 매일 300 MB 이상). 이 문제를 감안할 때, 너무 많은 데이터를 사용 하는 유일한 논리적 방법은 기계 기계 자동화 또는 지능형 쿼리 큰 데이터를 실행입니다. 그리고 오랜 시간에 대 한 너무 많은 데이터를 유지 하면 어떻게 사람들이 데이터의 일부가 손상 된 경우? 물론, 우리 (MD5 체크섬 형식) 등 데이터 다이제스트를 저장 하 고 중복 배열의 독립 디스크 (raid 사용 거울, XOR 패리티, 또는 삭제 코드 감지 하 고 손상 된 데이터)를 사용 하 여 수 있지만 일부 데이터 자동 손상에서 고통을 수 있습니다 성장 관심사가 있다.
인터넷 아카이브 (데이터 관리 기구)이이 문제를 조사. 전반적으로, 큰 데이터의 신뢰성은 큰 도전, 하지만 삭제 코드 및 고급 데이터 다이제스트 메서드 표시 큰 잠재력. XOR RAID 또는 간단한 거울 같은 전통적인 방법 RAID 6 및 더 많은 고급 삭제 코드에 의해 대체 되 고 있다. 이러한 전통적인 방법만을 단일 오류 보호 데이터 손실에 대 한 저장 장치 고장 시를 제공 하 고 소프트웨어 결함, 데이터 센터 운영자 오류, 또는 미디어 오류로 인 한 눈 손상 시나리오와 거래를 하지 않습니다. 대용량 데이터에 대 한 데이터 지 속성의 개념은 매우 중요 한 되고있다 그리고 나와 인텔 amplidata 수학적 모델와 함께에서이 주제를 공부 했습니다. 너무 많은 데이터를 그것의 진위를 확인 하는 사람들의 아이디어가 완전 하 게 작동 하지와 데이터 쿼리 또는 데이터가 손실 됩니다 액세스 마지막으로 긴 시간 후만 이다.
큰 데이터 시스템의 설계
대규모 데이터 보호 아키텍처 손실, 침묵 손상, 악성 코드 및 악의적인 사이버 전쟁을 통해 사이버 범죄자에 의해 실행 하는 데이터 변경에 대 한 방어를 포함 해야 합니다. 데이터 중요 한 결정, 하지만 데이터는 데이터의 값은 감소 또는 심지어 수 있습니다 사실 손실 될 정부와 기업에 의해 점점 사용 되 고 자산 이다-또는 더 나쁜, 나쁜 결정. 이 항목은이 문서의 범위 밖에 서 하지만 데이터의 손실 및 변경 또는 방위에 손상의 탐지의 부족 불가결 되지 않습니다 분명 하다.
대용량 데이터를 보다 잘 이해 하려면 한 가지 방법은 충분 한 데이터 (종종 PB)와 응용 프로그램에 사용할 수 있는 쿼리 도구 (보통 테라바이트) 클라우드 사이트의 일부를 분석 하는 것입니다. 대부분의 쿼리 사용 하 여 Google 매일, 하지만 Google은 또한 BigQuery, 더 정교한 열 저장소를 사용 하 여 도구와 검색 (이 예를 들어 자세히 설명 될 것 이다)을 제공 한다. 다른 주목할 만한 예로 페이 스 북 (소셜 네트워킹), 위키백과 (상식 모음), 인터넷 아카이브 (디지털 데이터 관리 기구), DigitalGlobe (지리 정보 시스템 [GIS]), 마이크로 소프트® 가상 지구 (GIS), 구글 어스 (GIS) 및 많은 새로운 큰 데이터 서비스 공급자.
회사는 개인 클라우드 시스템에 큰 내부 데이터 및 큰 데이터는. 많은 대용량 데이터 시스템은 읽기 전용 모드 사용자 쿼리 (시스템에서 생성 된 소스에서 수집), 하지만 그들은 데이터베이스 또는 구조화 되지 않은 데이터를 업데이트할 수 있도록, 그들은 사용자가 휴대 전화 문자 메시지 확인 코드와 인증을 요구 하는 암호를 사용 하 여 강력한 인증을 포함 수 있습니다. 그래픽 과제를 사용 하 여 인간의 데이터 입력의 유효성을 검사 하 고 아마도 미래에 더 많은 생물 학적 인증 사용.
대규모 데이터 응용 프로그램
사람들이 생각 하는 킬러 애플 리 케이 션에 대 한 이력서 및 비디오 분석에 대 한 매일, 하지만 일부 응용 프로그램 계산 하거나 비용 제약 조건을 구현 하는 필요 때문에 구현 년이 걸릴 수 있습니다. 하지만, 여기에 몇 가지 흥미로운 응용 프로그램의 목록이입니다.
그것은 구글 트렌드의 주식 시장 태도 분석의 사용 감소 및 소설, 되지 않을 수 있지만 큰 데이터 응용으로 서 큰 의미의 역사 지의 좋은 상관 관계를 가질 수 있습니다 입증 되었습니다. 기사 "구글을 사용 하 여 동향을 계량 금융 시장에서 거래"는 간단한 구입 하 고 전략의 보유와 인덱스 펀드 투자 큽니다 수 있습니다를 사용 하 여 태도 분석은 장기 및 단기 주식 매입 및 판매 결정을 확인 하는 증거를 제공 합니다. 연구는 확실히 더 많은 분석 필요 하지만 매력적 이다. 그러나 재미 있는 고려 이러한 기계 기반 거래 시스템은 기존 프로그램 거래에 존재 하는 때 일어나는 이다. Google에서 Picasa 사진 순서 정렬, 쿼리, 이력서 기술 및 기계 학습을 사용 하 여 얼굴을 자동으로 인식 하는 사용자를 허용 하는 유용한 도구입니다. 이 큰 데이터 서비스 및 응용 프로그램의 가치를 경험 하는 좋은 방법입니다. 이 메서드는 분명히 큰 데이터 분석 이력서로 같은 고급 분석을 필요로 하 고 머신 비전을 보여줍니다. 판도라 (음악) 등 추천, 넷 플 릭 스 (영화)와 아마존 (도 서 및 제품) 사용 고객 데이터와 여러 프록시 라는 협업 필터링 하는 방법. 이 큰 데이터 서비스 기계 학습 및 데이터 마이닝 분야에서 고급 연구 주제 되고있다. 명확 하 게, 좋은 추천 수 판매를 증가 하 고 고객 만족도 증가. 고객 그룹 분석 전통적인 고객 거래에서 수집 하는 BI와 소셜 네트워크 데이터 (예: 페이스 북과 트위터)를 연결 하 고 제공 고객 태도 분석이 텍스트 데이터를 기반으로 수 있습니다. 태도 분석 회사를 그들의 제품, 사업 또는 그들의 경쟁자에 대 한 관심의 생각 그리고 그들은 좋아하고 싫어하는 어떤 고객을 알고 있습니다. 센서에서 시스템에서 생성 된 데이터 네트워크 (와 같은 센서는 인프라 도시 교통, 신호등, 등 일반 대형 시스템에 포함 된); (사이트)에 한 컴퓨터에서 컴퓨터에 데이터, 센서 또는 로그 데이터에 의해 흡수 다른 기계;와 로그 파일, 가장 자주 그것에 의해 문제를 디버깅 하 고 (그들을 무시 그들은 복구 및 연속 작업을 수행할 인간의 개입을 필요로 하지 않는 경우) 시스템 예외를 관리 하는 데 사용. 여행 예약 시스템은 고객, 물류, 환경과 이전 역사적 행동 어려운 여행을 계획 하는 작업에 대 한 유용한 조언을 제공 하 여 향상 됩니다. 엔터테인먼트 소셜 네트워크는 라디오 및 비디오, 주문형 디지털 미디어 이제 거의 언제 든 지 콘텐츠를 볼 수 있게 하지만 아직도 소셜 네트워크를 통해 경험을 공유의 저장실에 토론의 사회적 측면을 대체 하 고. 이것은 콘텐츠 사용을 더 즐겁게, 콘텐츠 제작자, 스크립트 작가, 수 고 그 어느 때 보다 관객 들을 이해 하는 정말 더 나은 예술가. 의료 진단 종종 포함 규칙 기반 전문가 의사 결정 지원 시스템 (DSS), 하지만 큰 데이터와 증거가 이러한 시스템 연구에서 완전히 이혼 수와주류 의료 보조 된다. 예를 들어 환자의 자살의 위험의 객관적인 심리 평가 지원, 새로운 DSS 연구에 약속을 보이고 있다. 기록 데이터를 비교 하는 것입니다 이러한 시스템의 가치를 입증 하는 한 방법은: 이러한 인간의 결정을 대체 하지 않습니다 시스템과 의사 결정 지원 도구로 사용 될 때 개선 가능성이 높습니다.
열 쿼리, 구조화 되지 않은 데이터 분석, MapReduce 및 대용량 데이터 시각화 및 유추의 응용 프로그램은 그냥 엔트리 레벨.