대용량 데이터 분석: 데이터 샘플링의 종결자

출처: 인터넷
작성자: 사용자
키워드: 대용량 데이터 분석 대용량 데이터 분석 그들은 그들은 대용량 데이터 분석 터미네이터 대용량 데이터 분석 그들은 터미네이터 데이터 웨어하우스 대용량 데이터 분석 그들은 터미네이터 데이터 웨어하우스 경우

"정말 귀하의 비즈니스에서 일어나는 진실을 알고 하려면, 당신은 매우 상세한 데이터를 많이 필요 합니다." "Http://www.aliyun.com/zixun/aggregation/8302.html"의 연구소의 연구 책임자 > 데이터 웨어하우징 (tdwi) 필립 · Lusem TDWI의 빅 데이터에 대 한 그의 최신 보고서에. "만약 당신이 정말로 원하는 당신은 본 적 전에, 그것을 사용 하면 탭 적 비즈니스 인텔리전스에 의해 분석 된 데이터에 무언가를 보고," 고 말했다. "

이것은 대용량 데이터 분석의 존재에 대 한 이유, 그것은 전례가 없는. 뿐만 아니라는 큰 데이터 개념 자체는 드리지만, 적어도 우리는 21 세기, 스토리지 및 CPU 기술 데이터의 메가바이트의 수백만으로 침수 되는 그것은 위기에 직면 한 확장 가능한 데이터의 시작 부분으로 다시 갈 수 있습니다. "고급 분석 기법 데이터 마이닝 등 크고 다른 데이터 집합에 대 한 응용 프로그램에서 전례 없는 있습니다." 이것은 대용량 데이터 분석의 출현의 획기적인 의미 이다. 이것은 데이터 확장성 위기의 종말의 징조, Lusem는 말했다.

이것은 기업에 전례 없는 중요성을 가져왔다. 데이터 마이닝, 데이터 분석 및, 경우에 따라 보고서는 기업에서 수집한 데이터에 대 한 만들어집니다. 이 때문에 데이터 샘플링 등 실용적인 솔루션 기업에 대 한 매우 실제적인 필요성으로 볼 수 있습니다.

"데이터 마이닝 계획에 전체 데이터 집합을 넣을 수 없습니다. 당신은 당신이 필요한 데이터를 선택 하 고 데이터 올바른지, 정확한 데이터를 넣지 않는 경우 귀하의 기술 작동 하지 않을 수 있기 때문에 확인 해야 합니다. 마크 매드 슨, 연구원에는 연구소의 데이터 웨어하우징, 예측 분석 워크숍에서 참가자에 게 말했다.

"넣을 수 있습니다... 파고에 수집 하는 데이터의 매우 작은 비율 확률 이벤트의 샘플링입니다. "하지만 분해 되는 샘플을 어렵게 하는 매우 드문 이벤트 되 고 매우 드문 것입니다." "

이상적으로, 이러한 모든 "희귀" 이벤트 사기, 고객 변동, 잠재적인 공급 체인 붕괴 등 평소 하지 않은 찾을 수 있습니다. 그들은 높은 가치 가지 undifferentiated 데이터에 숨겨진 하 고 찾기 어렵다.

IBM, 마이크로소프트, 오라클 및 대부분의 다른 유명한 bi 및 데이터 웨어하우스 (DW) 공급 업체, Teradata Hadoop을 통합 하는 제품을 판매 하기 시작 했습니다. 일부는 심지어 그들은 유비 쿼터 스 mapreduce 알고리즘 실현 설 교.

이러한 공급 업체는 그냥 큰 데이터에 대해 얘기 하지 않습니다, 그리고 그들은 데이터 마이닝, 통계 분석, 예측 분석 등 고급 분석 기술을 결합 하는 대용량 데이터에 대 한 얘기는. 다른 말로 하면, 그들은 무슨 말을 하는지 큰 데이터 분석 이다.

데이터 웨어하우스 연구 연구소에 따르면 대용량 데이터 분석은 하지 아직에 되 고와 서 주류에 의해 받아들여지지. 연구소의 데이터 웨어하우징에 의해 최근 조사에서 1/3 이상 (34%)의 % 응답자는 그들의 기업 결합 고급 분석의 몇 가지 형태를 구현 하기 위해 많은 수 고 말했다. 대부분의 경우, 그들은 단지 매우 간단한 접근 방식을 걸릴. 예를 들어, 데이터 샘플링.

사실, Daveinbar, 데이터 통합의 수석 이사 전문가 Pervasivesoftware, 회사의 큰 데이터 제품, 말했다, "실로 경우 회사 샘플링 단계적 고려 하지 않습니다 다른 과거 소위 유용한, 그들은 정말 뒤에 뒤에."

"데이터 샘플링 방법을 사용 하 여 계속 하면, 실제로 모든 데이터를 처리할 수 있습니다 하지만 데이터의 과학적인 자연 약화." "그는 말했다. "하 둡의 세계에 있다 필수품 하드웨어 또는 진짜 스마트 소프트웨어를 사용 하지 않을 이유가 없습니다." 과거에는, 우리가 사용 하는 샘플링 데이터, 경제적 비용 고려 사항, 또는 기술적인 이유 있을 수 있습니다. 하지만 오늘,이 이유는 사라 졌 어 요. 과거에 데이터 샘플링은 최상의 연습 시나리오, 하지만 내가 생각 하는 그것의 시간을 통과 했다. "

"건초 더미에서 바늘 문제가 아니다 샘플, 적당 한 너무 많은 중점 학습 집합에 문제가 발생할 수 있습니다." "궁극적으로, 그것은 쉽게 통계 알고리즘을 수행 하 고 예제에 대 한 걱정 보다는 전체 데이터 집합을 실행 하" 매드 슨, 정보 관리 컨설팅에 대 한 책임은 말합니다. 할당 문제 있을 때 기술 데이터 문제를 처리할 수 있는 통계적 방법에 대 한 액세스. "

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.