공용 클라우드 뿐만 아니라 컴퓨팅 및 스토리지, 가격 구조 변경 하지만 그것은 또한 그것은 할 수 있는 어떤 기업의 범위를 확장 합니다. 큰 데이터 집합으로 작업할 때 이것은 특히 사실 이다 유연한 컴퓨팅 및 저장소 액세스에 대 한 아무 연습입니다.
"빅 데이터"의 느슨한 정의 너무 커서 일반적인 데이터 관리 기술 및 인프라를 처리 하는 데이터 집합입니다. 자세한 서버 로그 스트림 데이터, 소셜 네트워크 데이터를 클릭 하 고 모바일 장치 데이터는 트랜잭션 데이터 형식 데이터 웨어하우스 및 비즈니스 인텔리전스 시스템을 보완. 또한, 공용 클라우드 데이터 저장소와 제 가속기 또한 트위터 스트리밍 및 경제를 보 웬 Meetup 및 조사 데이터에서 대형 데이터 집합 항목을 제공합니다.
이러한 데이터 원본은 병합 보다 상세 하 고 정교한 분석에 대 한 수 있습니다. 환경 설정, 제품 구매, 하지만 어떻게 고객이 귀하의 사이트를 탐색할 수 및 얼마나 오래 그들은 다른 제품에 대 한 검색 것입니다 추적 뿐 아니라 고객에 대 한 더 많은 통찰력을 얻을.
큰 데이터 검색: 3 소스
대용량 데이터를 처리할 수 있는, 전에 그것은 데이터의 유형을 다루고 있는 결정 하는 것이 중요입니다. 큰 데이터 원본 세 가지 광범위 한 범주로 나누어집니다: 내부적으로 데이터, 데이터 집합 시장 및 제 3 자 데이터 생성기를 생성.
큰 데이터를 내부적으로 생성 하는 것은 종종 IT 운영의 부산물입니다. 네트워크 트래픽을 포함 하 여 데이터 스트리밍 및 응용 프로그램 로그를 클릭 합니다. 과거에는, 회사의 물건을 구입 하는 고객 등 중요 한 이벤트에 대 한 제한 된 정보 캡처. 이제 우리가 점점 더 중요 한 정보를 캡처 하 고 고객의 상호 작용에 대 한 하위 수준 세부 사항을 분석 하 여 비즈니스 응용 프로그램을 사용 하 여 수 있습니다. 이러한 세부 정보를 결합 하 여 데이터 마이닝 알고리즘, 인터페이스 가용성, 낮은 마진 거래, 또는 예기치 않은 고객 유형 클러스터링과 관련 된 패턴 등 더 많은 통찰력을 찾을 수 있습니다.
데이터 집합 시장 Infochimps, 아마존 웹 서비스 (AWS), Windows Azure 시장 등 다양 한 내부 데이터를 보완 하기 위해 데이터 집합 액세스를 제공 합니다. 당신이 처방 약물 사용, 소매 데이터, 거래 데이터, 또는 다른 항목의 넓은 범위에 관심이 있다면, 이러한 데이터 시장에서 데이터를 찾을 수 있습니다. 많은 데이터 시장 제공 클라우드 데이터 분석, 클라우드에서 가상 컴퓨터와 직접 작업할 수 있습니다.
타사 발전기는 수집 하 고 데이터를 제공 하는 고객에 게 또는 공용에 집중 하는 조직 이다. 연방 정부와 유럽 연합은 많은 수의 인구, 경제 및 공중 보건 데이터를 생성합니다. 후버, 등 민간 기업도 고객에 게 시장 및 위험 관리 데이터를 제공 하는 등 부가 서비스를 제공 합니다.
엔터프라이즈 도구 마이닝 큰 데이터 잠재적인
관계형 데이터베이스에 많은 수의 구조화 및 반 구조화 된 데이터를 결합 하는 것이 어렵습니다. 클라우드 데이터 분석 도구 제공이 데이터를 분석 하는 모든 사양 기업.
데이터 구조가 좋은 경우, 관계형 데이터베이스, Microsoft SQL Server, Oracle 등 AWS, Microsoft Windows Azure 및 기타 클라우드 공급자를 사용할 수 있는 일을 계속 하 고 좋습니다.
수십억 개의 데이터 행을 처리를 시작 하면 Hadoop 또는 Google BigQuery를 고려 하는 시간 이다. AWS 설치 및 Hadoop 클러스터를 구성 하는 시간을 절약 하는 플렉스 MapReduce, Hadoop 서비스가 있다. Hadoop은 패키지 지향 분석에 적합 하지만 BigQuery는 대화형 분석을 위해 더 적당 하다. BigQuery는 클래스 SQL 쿼리 언어를 사용 하 고 전문적인 분석에 대 한 두 가지 중요 한 고려 사항이 Tableau 소프트웨어 시각화 도구를 지원 합니다.
데이터 통합 및 관리
대용량 데이터 분석을 위한 데이터 웨어하우스의 많은 작업을에서 추출, 변환 및 로드 (ETL) 작업 연결 됩니다. 여러 데이터 집합에서 엔터티를 커플링 고유 식별자를 사용 하 여 데이터 집합 및 데이터 형식이 테이블 변환이 필요로 하는 때 도전 이다.
집계 수준에 차이에 초점. 예를 들어 일부 데이터 일상 수준에서 집계 되 고 다른 데이터 추적의 정상 수준으로 볼 수 있습니다.
알고 가장 중요 한 점은 데이터 전송의 비용을 큰 데이터를 일반적으로 동반입니다. 가능 하면, 가상 컴퓨터를 사용 하 여 같은 구름 데이터 저장에. 구글 BigQuery를 다룰 때 갯벌에 의해 처리 되는 데이터 양을 지불 해야, 그래서 그냥 행 필요한 열을 확인.
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.