큰 데이터의 네 가지 특성에 대 한 우리는 확실히 그 관련성은 또한 발견, 큰 데이터 가치를 사용 하 여 다음 이해 합니다. "빅 데이터는 무엇", "빅 데이터는 나와 함께 할 아무", 이것은 많은 사람들이 질문의 마음에 큰 데이터 들 었 처음 이다.
30 잡지에 따르면 관객 앞 Huberg 이상에 대해 배우고 싶다 Http://www.aliyun.com/zixun/aggregation/12368.html의 미래 동향, 그가 만든 매우 이해할 수 있는 연설, 기업과 사람, 말하는 무슨 큰 데이터입니다.
큰 데이터 종속성을 식별 하
새로운 인플루엔자 바이러스는 2009 년 때 미국 아끼지 아니었다, 그리고 질병 통제 기구 (CDC)에 즉시 통보 해야 돼지 독감 케이스를가지고 일선 의사 라는 세계적으로 발견 됐다. 그럼에도 불구 하 고, 게시판의 속도 항상 느린 되며 것입니다 1-2 주 늦게. 이러한 처방 CDC 실제 상황을 파악 하지 수 있도록 권리 해결.
여러 Google 엔지니어 유명한 자연 과학 저널에 논문을 출판 했다. 그들은 CDC의 2003 년-2008 년 인플루엔자 전송 데이터, 최대 450 백만 다른 수학적 모델을 사용 하 여 주파수, 시간 및 이러한 단어의 위치를 찾을 수와 비교 그리고 통계적으로 관련성이 높은 (상관) 인지, 미국에서 가장 일반적으로 사용 하는 첫 번째 50 백만 검색 키워드를 사용 합니다. 마지막으로 그들은 보물을 파고, 소프트웨어 발견 45 독감 핵심 단어, 수학적 모델, 예측의 결과 실제 데이터의 공식 출시에 넣어 강한 상관 관계가.
이 수학적 모델을 사용 하면 Google 다시 한 번 봉우리와 인플루엔자, 전염병을 동기화 유지 하 고 뒤에 떨어지는의 영역을 장악 하고있다.
또 다른 예로, 천문학, NASA 라는 슬론 (Sloan 디지털 하늘 조사)는 2000 년부터 사용 하 고 데이터를 수집 하는 뉴 멕시코에만 몇 주 동안 망원경, 디지털 스카이 설문 조사 실시 받은 천문 데이터 양의 모든 이전 천문학 역사의 합계를 초과 합니다. 2010 년 계획 데이터의 140 TB 받았다. 하지만 2016 년, 데뷔 예정, 새로운 계획 미래 조사 망원경에 대 한 일 이내에 사용할 수 있을 것입니다.
Huberg 데이터 천문학 시간에 갔다, Huberg 생각나 게 했다: 얼마나 큰 빅 데이터는? 사실, 그렇게 중요 하지 않습니다, 확대, 데이터 수준 확장 하는 것입니다 초점, 적은 양의 일을 하는 정보를 만들 수 있습니다.
예를 들어 말의 그림 그리기 하는 것은 너무 어려운, 하지만 당신이 말의 그림을 많이 그리고 초당 24 프레임에서 그들을 제시, 그것은 애니메이션. 여기 "양적 변화"를 강조 하는 "질적 변화",이 사실의 거 대 한 금액, 차이, 볼륨을 생산 하지만 또한 본질을 바꾸었다.
어떤 이유 보다 더 중요 하다입니다.
증가에 또 다른 큰 데이터 기능: 혼돈 (혼란). 엄청난 양의 정보의 콘텐츠는 종종 혼란과 품질에서 일관성. 이것은 데이터 수집 프로세스의 거 대 한 양을, 그것은 일반적인 방향으로 수로 하지 않아도 인치 지점에 관심을 지불 하기 때문에. "그것 아니다 우리가 정밀에 포기 했습니다 하지만 우리가 mantras 정밀도를 않을 거 야," Huberg 말했다.
예를 들어 온도 측정 하는 특정 포도의 경우 전체 포도 하나만 온도계, 온도계는 정확 하 고 잘못 하지 해야 할 것입니다 하지만 그것 또한 그것은 비싼 것을 의미할 것입니다. 즉, 혼란 또는 오류 수; 반대로, 만약 우리가 오늘 온도 측정 하는 포도 원에 100 온도계, 우리는 정확한 온도 측정 하는 저렴, 간단 하 게 온도계 사용할 수 있습니다.
100 온도계 몇 가지 덜 정확한 수 있습니다 있지만 많은 양의 데이터를 수집할 수 있습니다 큰 수량을 나타냅니다. 만 온도계에 비해 볼 수 있습니다 전체 그림 전체를 나타내는. 이 시점에서 약간 혼란의 사소한 보인다.
강조 다시, Huberg 모든 관객 들에 게, 말했다, 빅 데이터 시대에 데이터 수량 데이터 품질 보다 더 중요 한 것은 갑자기 일어 왔다. 조금 정보 편차 및 영향 전반적인 분석, 부정확 한 정보를 처리 하 고, 하지 비용 매우 높은, 아무 필요도 있을 것입니다!
또 다른 흥미로운 예는 월마트-마트 (73.54, 0.00, 0.00%) (월마트), 그들은 그 전에 허리케인 히트, 판매 뿐 아니라 손전등은 거 대 한 거래 기록에서 발견, 거기에 작은 미국 디저트 가기-타르트가 각 허리케인의 상자 전에 있을 것입니다 탑-타트 사이 클론, 한 번에 맞게 고객 편리의 필수품에 "특히 딸기 맛, 최고의 판매." "
참고 여기 왜 알아 내려고 하지 월마트 사람들 특히 허리케인이 상관이 관계를 찾을 하지만 직접 행동 마케팅 더 유리한 때 상단 타르트를 먹고 싶어.
Huberg 특별 한 강조, 빅 데이터 시대 왜 무엇 보다 중요 한.
그의 친구, 큰 데이터 전문가 게 일어난 또 다른 예로, 워싱턴 대학 교수 Izony (오 렌 Etzioni)에서 르 친다. 2003 년에 그는 시애틀 타워에서 로스 앤젤레스, 그의 동생의 결혼식을 걸릴 하 고 싶 었 그는 가능한 빨리 티켓을 구매 하 고 싶 었 그리고 그는 몇 달 전에 티켓을 구입 하 고 저렴 한 발견. 나는 그 옆 승객에 게 얼마나 많은 돈을 그가 항해, 호기심에 구입 하 게 기대 하지 않았다. 그 결과, 그 때 그는 그가 단지 최근에 대답을 구입 했다 그것은 그 보다 더 싸게 구입 했다 대답 매우 화가 했다.
비행기에서 받고, 그 티켓의 구입을 공부 하기로 결정 했습니다. 그는 평균 티켓 가격이을 면, 티켓 찍은 수 천천히; 발견
그것은 41 일 여행 웹사이트에 12000 이상의 티켓을 얻을 했다 그리고 그가 만든 모델을 시뮬레이션된 소비자에 대 한 많은 돈 절약할 수 있을 것. 이 모델에서는 소비자를 이해 하지 않습니다 "왜 (왜)"만 알고 "정확 하 게 그렇게 (무엇을)", 소비자는 지금 결정은 "구입 또는 구입 하지".
나중에, 모델 개발 사업 계획, 그는 farecast 웹사이트를 만들었습니다, 소비자는 최선의 판단을 만들 수 있습니다 구매 또는 구매 때.
큰 데이터 및 값
우리가 큰 데이터의 특성을 알고, 우리는 상관 관계를 찾을 한 다음 우리는 그것에 의해 값을 만듭니다.
시애틀, 미국에서 INRIX, 차량의 실시간 위치에 전용 데이터 회사 차량 수십억의 수백에서 온다. 동시에 그것은 특정 드라이버 정보, 그들은 운전, 날씨와도 조건 되었습니다 등 대 서비스를 제공 하는 모바일 응용 프로그램 서비스를 시작 했다. 그들은 다음 그들은 소매 구매 또는 판매를 결정 하는 그들의 분기별 발표 하기 전에 주변에 큰 소매 상점도 조건에 따라 그 성능을 추측 하는 투자 펀드를 받을 정보를 판매할 예정 이다. 때문에 자동차의 돈 조 수입니다. 그 값입니다.
영국의 로이스 엔진 엔진에 모니터를 설치 하 여 제대로 작동 여부 제어 유명한 항공기 엔진 제조 업체입니다. 결과적으로, 그들은 수집 된 데이터는 때 뭔가 잘못 된 사고를 크게 감소 예측으로 밝혀졌다 엔진 엔진 문제가 될 수 발견. 서비스 컨설팅 과거 제조 엔진 회사에서 로이스, 그들은 만들었습니다 데이터를 귀중 한.
Huberg 큰 데이터를 많이 하지만 그 큰 데이터는 그것의 어두운 면을 강조 했다: 개인 정보 보호는 확실히 관심의 초점 이다 하지만 그는 더 무 섭 다는 심장 마비가 있을 것입니다 여부를 예측 하는 다양 한 알고리즘을 강조? 또는 범죄를 하는 경우. 때로는, 계산 및 큰 데이터를 기반으로 예측 자유의 지 보다 덜 중요 하다.
같은 시간에 우리는 점점 더 많은 기업이 더 많은 정보가, 있을 것 이다 하지만 그들에 대 한 정보 같은 거 대 한 컬렉션 무엇입니까 걱정? 목적은 무엇 인가? 그것은 반드시 감독 및 관리.
"엄청난 양의 정보, 인 간에 의해 아닙니다에 의해 제어 됩니다 방대한 양의 데이터," Huberg의 마지막 알림입니다.