키워드:큰 데이터 대용량 데이터 nbsp; 대용량 데이터 nbsp; 우리 대용량 데이터 nbsp 우리 정말 빅 데이터 nbsp; 우리 정말 맹목적으로
큰 데이터는 아마 지금 가장 뜨거운 기술 용어입니다. 열 의미 거품, 반사의 가치 있는 장소입니다. 석 영의 크리스토퍼 Mims 5 월 6 일 기사를 출판, "데이터의 대부분은 큰, 큰 데이터 돈 실제로 눈 먼 낭비는 척", 라고 정당화, 첫 번째 읽기를 권장. 다음은 번역입니다.
만약 당신이 아니에요 큰 데이터 캠프에 지금, 좀 하려고 합니다. 결국, 경쟁 큰 데이터를 필요합니다. 있는 경우 작은 양의 데이터, 당신은 완전히 당신의 경쟁자에 의해 패배 될 것입니다.
또 다른 큰 프로젝트 컨설턴트와 IT 기업 기업에 판매 하는 큰 숫자 뒤에 많은 질문입니다. 다행히도, 정직한 큰 데이터 실무자 (데이터 과학자 라고도 함)는 결코 그들의 회의론을 치워 하 고 앞으로 큰 데이터과 대 광고의 피곤 하는 이유의 시리즈를 넣어. 다음:
우선, 같은 페이스 북과 야 후도 인터넷 거 인은 항상 큰 데이터를 상대 하지 그리고 Google 스타일 도구 애플 리 케이 션 적절 하지 않습니다.
페이스 북과 야 후 데이터를 처리 하기 그들의 메가-트렁킹 기계 (강력한 컬렉션 서버)를 실행합니다. 클러스터 처리에 대 한 필요성 큰 데이터의 특징 중 하나입니다. 모든 후, 집에서 처리할 수 있는 데이터 Pc 호출할 수 없습니다 큰 데이터. 각 작은 비즈니스를 처리 하는 일련의 컴퓨터를 사용 하 여 중소 기업으로 사업을 분할 해야 할 필요성 Google 컴퓨팅의 세계에서 모든 페이지의 크기와 비슷한 큰 데이터 문제의 전형 이다.
그것은 지금 Facabook 및 야 후, 그것이 동일한 규모로 클러스터 각 사업에 필요한 것 같다. 페이스 북에, 예를 들어 대부분의 엔지니어는 클러스터에 제출 하는 작업 gb, mb 하 고 단일 컴퓨터 또는 노트북 컴퓨터에서 할 수 있습니다.
야 후도 비슷한 상황, 12.5 G b만의 야 후 클러스터 기계 처리 데이터 중간값, 일반적으로 데스크톱 컴퓨터가이 작업을 처리할 수 있지만 더 나은 구성 된 서버는 완전히 유능한.
위의 아이디어는 "아무도 이제까지 있어 해 고 클러스터를 구입에 대 한." 라는 마이크로소프트 연구에 종이에서 증 류 종이 가장 데이터 배고픈 회사에도 대부분 문제 필요 클러스터링 되지 지적 한다. 때문에 클러스터링 문제 종류의 많은 수에 대 한 상대적으로 비효율적 이거나 심지어 완전히 부적 절 한 솔루션입니다.
2, 큰 데이터 데이터 분석, 복잡 하 고 비 생산적 정의와 동의어가 되었습니다.
데이터 분석 로얄 곡창에 대 한 모든 곡물 테이블에 다시 추적 될 수 있다 하지만, 데이터를 "큰" 단어를 추가 해야 하는 지금 그리고 필요한 데이터 분석은 이미 큰 하지만 덜 유용한 인기 폭풍에 관여. 예를 들어 기사 경고 독자는 "3 단계 소규모 비즈니스에 큰 데이터를 적용 하려면", 사실, 소규모 비즈니스 데이터 볼륨 Google 문서, Excel의 노트북을 언급 하지 않기 위하여 처리 수 있습니다.
이 즉, 기업에서 대부분의 데이터 처리는 오픈 지식 재단의 루 퍼스 폴락에 의해 말했다 실제로 작은 데이터입니다. 그것은 중요 한, 그것은 "혁명", 폴락 말했다. 하지만 큰 데이터와 함께 할 약간 있다.
이유 3, 슈퍼 華 데이터 규모 촛불 가치가 없어 문제가 되고있다.
더 많은 데이터, 더 나은? Necessarily。 관련 수식-x, y 사이의 관계를 찾는 경우에 어떻게 당신은 날을 제공할 수 효과적인 정보? 거기에 더 많은 데이터 사실, 그것와 함께 제공 되는 큰 문제입니다.
큰 데이터에서 추출 수 있는 정보는 데이터 규모 증가로 감소 마이클 우, 리튬, 소셜 미디어 분석에서 수석 데이터 분석 기록 합니다. 즉, 특정 지점, 데이터의 지속적인된 증가 의해 생성 된 한계 데이터 수익 같은 정도로 더 많은 데이터를 수집 하는 시간 낭비 감소 후.
이유: 더 "큰" 데이터, 더 많은 오류 메시지 됩니다 종속성을 찾을 때. 빈센트 빌, 데이터 분석, 저주의 큰 데이터 (다 수의 저주)에 썼다: 그것은 수백만 상관 관계, 거래의 상황으로 쉽게만 1000 항목을 포함 하는 경우에. 이러한 상관 관계의 모든 높은 호환 될 수 있습니다 "즉," 하지만 이것은 단지 사고: 결과가 잘못 될 경우이 상관 관계 분석을 사용 하 여 예측 모델.
이 오류는 큰 데이터의 원래 응용 프로그램 중 하나에의 유전학에서 종종 볼 수 있습니다. 과학자 들은 게놈 시퀀싱에 관심이 그들의 관련성의 끝 없는 연구에 대 한 검색 되었습니다 고 보람 결과의 모든 종류와 함께 올라와 있다.
이유는 4, 어떤 경우에, 큰 데이터는 sun의 감각을 줄 것 이다 하지만 그것은 또한 당신을 혼동 될 수 있습니다.
일단 회사는 대용량 데이터를 사용 하 여 시작, "데이터 과학"를 구성 하는 밀 교 연구-통계, 데이터 품질, 그리고 다른 모든 것 들의 시리즈에서 벗어나지 이다. 게시의 과학 처럼 매일 자주 간과 또는 개정, 또는 결코 입증 된, 너무 많은 함정이 있습니다.
데이터 수집 방법, 컨텍스트, 데이터 집계 간격의 부족에에서 편견 수동 데이터 처리 패턴 및 전반적인 인식 편견 최고의 연구자도 이어질 수 있습니다 찾을 수 잘못 된 모델, 케이트 크로포드, MIT 미디어 연구소에서 객원 교수는 말했다. 우리 수 잡힐 알고리즘 마술의 일종에. " 즉, 경우에 대용량 데이터와 IT 부서에서 다른 사람에 의해 처리 되지 않습니다, 그는 박사 또는 동등한 경험을 할 수 있습니다. 처리가 완료 되 면 그들의 대답은 "빅 데이터" 필요가 없습니다 있을 수 있습니다.
그래서이 낫다-큰 또는 작은 데이터?
귀하의 비즈니스에 대 한 데이터를 필요 합니까? 물론 당신이 할. 하지만 뾰족한 밀고 버트의 상사 라고 패션 같은 중요성의 크기를 살 것 이다. 또한 과학 데이터 품질, 전반적인 목표, 그리고 맥락과 직관의 중요성의 분야에서 데이터-의사 결정의 사용에 문제가 있다. 주의 사항: 그 레 고르 멘델 유전 비밀 데이터의 하나의 노트북을 사용 하 여. 중요 한 데이터의 크기가 아닌 데이터의 품질입니다.
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.