이전 경험 장점의 전체 확장 큰 분석 값을 가져올 것 이다 우리가 가르쳐 있다. 하지만 큰 데이터 [참고] 보편적인 망치 이며 모든 문제는 하지 못 망치에 의해 해결 될 수 있다.
많은 사람들이 그 큰 데이터 의미는 더 큰 더 나은 생각 합니다. 사람들은 종종 다양 한 철학적 관점에서 "더 나은"의 질문을 해석합니다. 내가 요약 이러한 각도 다음과 같습니다.
믿음: 더 큰, 더 빠르고, 풍부한 유형의 데이터 항상 큰 데이터 분석의 핵심 가치는 더 많은 통찰력을가지고 의미 합니다. 이러한 통찰력을 발견할 경우, 그것은 우리가 충분히, 열심히 노력 하지는 또는 우리는 충분히 유연 하 게, 우리는 올바른 도구 및 솔루션을 사용 하지 않는 때문에.
아이돌: 방대한 양의 데이터는 자체 값, 그리고 우리가 그것에서 특별 한 통찰력을 얻을 수 있는 여부와 아무 상관이 의미 합니다. 지원 되는 특정 비즈니스 응용 프로그램에 기초 하 여 전적으로 그들의 유용성을 평가 하 고, 경우 다음 우리 데이터 과학자의 현재의 필요와 미래의 탐사 노력을 지원 하기 위해 별도로 데이터 호수에 데이터를 저장 하도록 데이터 과학자에 대 한 필요와 일치 하지 않습니다.
부담: 방대한 양의 데이터 하지 반드시 좋은 소식이 나 나쁜 것은, 그러나 불변 사실 그들은 스토리지 및 기존 데이터베이스의 처리 능력에 많은 압력을 넣을 수와 따라서 새로운 플랫폼 필요성 (Hadoop)에 대 한 확인 이다. 만약 우리가 이러한 새로운 데이터 성장 속도 함께 유지할 수 없습니다, 핵심 사업 필요 것 이다 강요 당할 새 데이터베이스로 이동.
기회: 내 생각에,이 대용량 데이터에 대 한 올바른 솔루션입니다. 데이터 새로운 수준, 빠른, 흐름 및 데이터 소스 확장 하 고 형식 성장, 솔루션 전례 없는 통찰력에 대 한 보다 효율적인 액세스에 중점을 둡니다. 그것은 사용 하지 않습니다 큰 데이터는 믿음 이나 우상으로도 작은 데이터 크기는 많은 다른 통찰력을 얻을 계속 수 알고 있기 때문에. 또한 새 데이터베이스 플랫폼, 도구 및 방법을 통해 효과적으로 해결할 수 있는 문제 아니라 부담으로 그것은 데이터의 규모 볼지 않습니다.
2013 년에 내 블로그에 큰 데이터의 핵심 사용 사례를 논의 하지만 그것은 단지 방정식의 "기회" 부분을 포함. 나중에, "큰" 큰 데이터에서의 핵심 가치 추가 컨텍스트 추가 콘텐츠를 표시 하는 기능에서 파생 된 것으로 나타났습니다. 그것의 전체 의미를 탐험 데이터 분석으로 더 자연 배경입니다, 더 나은. 마찬가지로, 모든 변수, 관계, 그리고 더 나은 해결책을 찾기 위해 문제 범주에서 패턴을 식별 하려고 더 많은 콘텐츠가입니다 더 나은. 즉, 점점 더 많은 콘텐츠, 더 많은 배경 환경, 점점 더 많은 데이터에 자주 결과와 결합.
큰 데이터의 다른 값은 그들은 소규모 데이터에 의해 생성 된 오류를 수정할 수 있습니다. 문제를 관찰 하는 사람들 말을 데이터 과학자에 대 한 훈련 센터에서 더 적은 데이터 의미 그들은 여러 모델 위험에 더 취약. 첫째, 데이터의 작은 크기는 중요 한 예측 변수를 무시 하는 사용자를 발생할 수 있습니다. 같은 시간에 사용자는 큰 확률을 벗어나고 모델을 아닙니다 대표 하는 샘플을 선택 합니다. 또한, 사용자가 경우에 사용자가 실제로 작동 하는 기본 관계를 계시 하는 완전 한 데이터 식별 될 수 있는 잘못 된 관계를 찾을 수 있습니다.
규모는 매우 중요 한
모두는 동의 일부 데이터 형식 및 사용 사례 새로운 통찰력을 가져올 수 있는 것 보다 더 많은 도움이.
최근 우연히 큰 데이터 라고 예측 패턴: 더 큰 더 나은? 문서가이 문서 데이터-스파스 세분 행동 데이터의 특정 카테고리에 elaborates. 이 점에서 데이터의 규모는 보통 예측된 성능을 향상 시킵니다. Junquéde 조식룸, 마 및 학장, 기사의 저자는 말했다: "이러한 데이터 집합에 대 한 중요 한 문제는 그들은 일반적으로 상대적으로 부족입니다." 어떤 주어진된 인스턴스에 대 한 대부분의 기능은 쓸모 없는, 또는 값이 표시 되지 않습니다. "
가장 주목할 만한는 (저자 지원 그들의 인수 풍부한 연구를 인용 하 여), 고객 분석에 초점을 맞춘 많은 큰 데이터 응용 프로그램의 핵심입니다. 소셜 미디어 행동 데이터, 웹 브라우징 행동 데이터, 모바일 행동 데이터, 광고 응답 동작 데이터 및 자연 언어 동작 데이터 데이터의이 종류에 속한다.
"사실, 예측 분석에 사용 되는 데이터는 매우 비슷한 대부분 예측 분석 비즈니스 응용 프로그램, 같은 방향 마케팅, 신용 점수, 및 손실 관리, 금융 및 통신 분야에서" 저자. 이러한 제품의 특성은 일부 특정 동작 선제 동작 등 통계 요약 뿐만 아니라 개인의 배경, 지리적, 심리적 특성에 집중 된다. "
"더 큰 행동 데이터 집합 경향이 더 나은"에 대 한 주요 이유는 매우 간단 (+이 사이트 마이크로 편지 networkworldweixin), 저자는 "많은 데이터 없이 몇 가지 중요 한 동작 수 없습니다 효과적으로 관찰." 생각 "이것은 조각난된 데이터 집합에 기록 되는 사람 수 있습니다 표시 동작의 제한 된 수 있기 때문에." 그러나 전체 인구를 보면, 당신은 적어도 한 번 각 특정 유형의 행동, 또는 특정 환경에 대 한 관찰할 수 있습니다. 데이터 낮은 경우 다음 관찰 대상과 관찰된 행동 특성 있을 것입니다 덜을 무시 많은 것 들을이 끌 것입니다.
예측 모델 원본 동작 데이터 집합의 풍요에 의존합니다. 예측을 더 정확 하 게 미래 시나리오에, 큰 데이터 크기는 일반적으로 더 나은.
때 더 큰은 흐림
그러나, 문서의 저자는 또한 일부 장면을 언급 한다. 이러한 시나리오에서 더 큰 더 나은 가정 설정 되지 않습니다, 다음 우리가 특정 행동 특성의 예측 값을 사용 해야 합니다. 이 시점에서, 무역-오프 예측 행동 모델의 기초가 됩니다.
예측 모델에서 증가 행동 특성의 각각 완전히 차이, 즉 확대, 과도 한 피팅 및 일반적으로 더 큰 기능 세트에 결과 예측 오류를 극복 하는 모델의 학습 효과 및 예측 능력을 향상 시키기 위해 만든 예측에 연결 한다. 기사의 저자는 말했다, "없는 기능의 많은 수만 증가 시킬 확률의 차이 맞는, 대응 하 게 더 나은 모델을 학습의 확률을 증가." "
분명히 때 "큰" 방해 예측 통찰력의 수집 큰은 아니라 더 나은 합니다. 사용자는 데이터 규모 확장의 피해자가 그들의 큰 데이터 분석 노력을 원하지 않습니다. 데이터 과학자는 또한 완벽 하 게 분석 작업을 손에 맞게 데이터 모델의 크기를 조정할 때 이해 해야 합니다.