산업용 대용량 데이터

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터 우리는 아주 자주

소개 1988, 절 강 대학교, 교수 반 Dayin "확률 이론" 수학 학과에서 공부합니다. 난 한번 그녀에 게: "신생아 출산 전국 남녀의 비율은 51.2:48.8는." 지방의 통계 결과 같은 경우, 그들은 더 많은 정보를 포함 할? "교사 Fei는 말했다:" 같은 확률 경우 지방의 결과 더 이상 정보. "20 년 후, 나는 깨달았다: 이론, 교사 Fei의 대답은 완전히 정확한 지, 하지만 현실에서 정보의 양은 동일 하지 않습니다."

큰 데이터 인기 있는 단어 이며, 세계의 산업에서 광범위 한 관심을 받고 있다. 오래 된 대학인 한 번 말했다: "큰 데이터 주요 업적, 그리고 침해 http://www.aliyun.com/zixun/aggregation/9799.html" > 개인 정보. 사실, 업계에서 큰 데이터의 몇 가지 성공적인 애플 리 케이 션이 있다. 믿습니다 큰 데이터는 산업에 큰 변화를 가져올 것 이다. 하지만 동시에 업계에서 큰 데이터에 작업은 위험한 일 이다. 대부분의 사람들은 drubbing을 반환할 수 있습니다. 그것은 큰 데이터를 이해 하기 어려운, 그것은 몇 가지 기괴 한 개념에 의해 속지 어렵다. 속지 않으려면, 본질을 이해 해야 합니다.

어떤 사람들은 대용량 데이터의 가장 필수적인 기능은 많은 양의 데이터, PB, 있어야 EB 수준. 그것은 왜이 크기를 해야?이 수준 아래 지난 방법을 효과적으로 저장, 전송 하 여 수 처리;이 크기 후 새로운 이론, 방법 및 아이디어는 필요 하다. 그래서 데이터 레벨의 확장 새로운 이론 태어납니다. 그러나, 응용 프로그램의 관점에서 있을 것 필요가 없습니다: 데이터 분석의이 수준 보다는 더 적은 자주 하지 잘 데이터 마이닝 이론 수십 년 동안, 성공적인 케이스의 수는 많은. 따라서,의 관점에서 이론가의 그것은 데이터의 수량을 강조 하기 위해 합리적인 하지만 엔지니어의 관점에서 많은 아니에요 데이터의 양을 강조 하.

관점에서 응용 프로그램의, 중요 한 데이터의 양을? 다른 배합 될 수 있다: 연구 문제, 10 데이터, 100 데이터 및 10000 데이터는 다른? 과거에 차이 매우 큰. 예: 선형 회귀 할 하나의 독립 변수 보다 샘플 수가 충분 하다, 몇 가지 보다 더 많은 시간, 기본적으로 매우 좋은 경우. 신경 메서드를 사용 하 여 샘플 수는 더 이상의 크기 순서. 이러한 방법에는 데이터 어렵습니다 훨씬 더 큰 역할을.

정말 쓸모 없는 여분의 데이터는? 내 느낌은: 더 많은 데이터, 하지만 사용 하지 것입니다, 사용 하기 어려운. 그것은 개인 사용 하지 않는, 하지만 보편성입니다. 비밀은 무엇입니까?

확률이 나 통계 이론 공부는 사람은 그 모든 수학 이론은 특정 가정을 기반으로 알고 있다. 예를 들어 특정 확률 분포에 따라 간섭 발생, 독립 변수 감지 오류는 무시 됩니다. 많은 경우에, 우리 항상 생각 물론 이러한 조건에 자연. 그 결과, 사람들은 직접도 서에 따라 분석 하 고 익숙해.

하지만 현실에서는, 이론의 가설 종종 유지할 수 있습니다. 분석할 때 산업 공정 또는 장비, 데이터의 유통은 종종 매우 일반; 임의의 가정 종종 잘못 된 분석으로 이어질. 이 문서의 시작 부분에 있는 인구 문제 보세요: 우리 가정 아동의 섹스는 특정 확률에서 발생 하는 것. 그러나, 이것은 단지 가상입니다. 사실, 중국 인구에 출생의 비율, 년 동안 많은 변화 하고있다 그리고 지방 다르다.

통계 연구는 엄격 하 게 실시 하는 경우 확인 하려면 우선 무작위 현상 고정된 주파수에 따라 발생 하는 여부입니다. 이 조건에만 '확률'의 기본 조건이 만족합니다. 이후 분석 결과 신뢰할 수 있는 발생 합니다.

그래서, 우리는 몇 가지 기본 가정을 확인 하기 위해 더 많은 데이터를 필요 합니다. 이 시점에서 요구 사항 데이터의 볼륨은 크게 개선 될 것입니다. 또한, 데이터의 신호 대 잡음 비율 낮은 때, 데이터 볼륨에 대 한 수요가 크게 증가할 것 이다. 저자 연구 하고있다, 그 분석의 역할의 발견, 2000 ~ 20000 데이터.

이 방법에서는, 추가적인 데이터 유용할 것 이다. 데이터의 많은, 우리는 분석의 정확성을 보장할 수 있습니다.

하나 요청할 수도 있습니다: 데이터에 대 한 요구 되지 않는 신경 같은 비 전통적인 방법?, 신경 접근 요구 하지 않는다 명시적으로 아무것도. 하지만 누가 결과의 신뢰성을 보장할 수? 사실, 신경 방법의 사용에 대 한 잠재적인 요구 있다: 데이터를 모델링 하는 것은 충분 한, 그리고 미래의 데이터 분포는 변경 되지 않습니다. '고정 유통'의 요구는 매우 높다: 데이터 배포 범위와 밀도 변경, 뿐만 아니라 또한 변수 간의 관계의 간섭 유통은 변경 되지 않습니다. 현실에서는,이 요구 사항을 확인 하 고 명확 하 게 말을 어렵습니다. 그 결과, 결과의 신뢰도 명확 하지 않습니다. 이것은 실용적인 응용 프로그램에 매우 유리한입니다.

더 많은 데이터 유용 이기 때문에, '빅 데이터' 요구 사항을 낮출 수 있습니다 조금? 저자 생각: 만약 새로운 생각 특정 분석 작업을 완료 하 고 필요한 데이터를 많이 필요로 하 고 방법, 큰 데이터의 카테고리를 볼 수 있습니다. 데이터의 양을 강조할 필요는 없습니다.

분석은 지금 막 조금 이론적인 있을 수 있습니다. 여기에 구체적인 솔루션이입니다.

나는 오랫동안 산업 데이터 모델링 활동에에서 종사 되었습니다. 분석 결과의 신뢰성을 알고 매우 중요 하다. 신뢰성 및 분석 결과의 실질적인 가치는 동전의 양면 많습니다: 올바른 검색 큰 값을 만드는 경우 잘못된 이해는 필연적으로 리드 상당한 손실. 따라서, 큰 가치 분석의 결과, 신뢰성에 대 한 수요. 이것은 데이터 분석의 어려움을 정확 하 게 이다.

우리는 안정성을 달성 하기 위해 더 많은 데이터를가지고 싶습니다.

데이터의 넓은, 분산의 많은 수 뿐만 아니라 데이터의 합리를 확인할 수 있습니다 하지만 또한 합리적으로 특정 분석 목적을 달성 하기 위해 특정 분석 요구 사항에 맞게 데이터를 결합할 수 있습니다. 같은 시간에는 많은 데이터 뿐만 아니라 상호 검사의 결과 분석을 통해 다 각, 라운드 분석 결론이 특정의 정확성의 작은 샘플 데이터를 할 수 없습니다입니다. 특히 데이터 오류는 비교적 큰 또는 관련된 요소는 더 많은.

여기, 나는 또한 큰 데이터의 다른 특징의 생각: "속도", "다양성", "낮은 값 밀도". 응용 프로그램의 관점에서이 특성은 매우 중요 한 것 같지 않습니다.

1. 빠른 생산. 분석의 어려움 증가, 응용 프로그램의 혜택은 많은, 그것은 단지 이론적으로 귀중 한.

2. 낮은 값 밀도입니다. 또한 분석의 어려움을 증가 시킵니다. 그러나 응용 프로그램에 대 한 이것은 강조 가치가 있을 하지 않는 현상. 사실, 신뢰할 수 있는 결과 얻으려면, 개별 '작은 데이터'는 종종 큰 데이터 분석 하 키 키. 또한, '블랙 스완'의 성격을 가진 작은 데이터의 발견은 종종 큰 데이터의 중요 한 목적은.

3, 소위 '다양성', 많은 구조화 되지 않은 데이터를 참조합니다. 그것은 또한 요소는 이론적인 어려움을 증가 하 고 유틸리티에 긍정적인 효과가 없습니다. 현실에서는, 데이터 분포는 더 널리, 더 나은 결론의 신뢰성 쉽게 다른 각도 시야에서 결정 됩니다. 그래서, 나는 오히려 데이터 형태의 다양성 보다는 오히려 '다양성' 데이터 분포의 폭으로의 생각.

관점에서 응용 프로그램의, 저자 감사 '데이터의 과학'의 개념: 데이터 분석, 모델 계산 및 실용적인 문제를 해결 하기 위해 도메인 지식의 포괄적인 이용.

엔지니어, 데이터 분석의 목적은 문제를 해결 하기 위해입니다. 분석의 목적을 달성 하기 위하여 우리는 모든 유익한 방법가지고 해야 하며 모든 유용한 증거 수집 및 특정 이론적인 방법에 자신을 한정 한다. 큰 데이터, 하지만 우리 처럼 작은 데이터: 우리 같은 완전 한, 실제 데이터. IBM는 4V 이론을 수정 했습니다. 저자의 의견으로, 이것은 매우 합리적인입니다.

정리해 보면, 저자는 생각 한다: 산업 분야에서 큰 데이터 이론을 사용 하 여 때 우리가 '근본주의'의 이해에 붙어 하지 한다. 우리 안 잡으려고 유행 이론 및 필드 값을 큰 데이터에 초점. 이러한 의미에서 대용량 데이터, 연구 기업 제조 단어 '산업', 현재 인기, 비즈니스 지향 큰 데이터 이론 구별을 특히 강조 해야 한다.

수십 년 동안 '데이터 마이닝' 이론 등장 했다. 하지만 업계에서 몇 가지 성공적인 응용 프로그램을 확인 하 고 있습니다. 내가 생각: 중요 한 이유 중 하나는 적절 한 데이터 분석 및 처리 이론의 부족 이다. 내가 생각: 좋은 산업 데이터를 사용 하 여 세 가지 핵심 포인트에 주의 해야:

1입니다. 신뢰성입니다. 신뢰할 수 있는 결론은 산업 연습을 적용할 수 있습니다. 내 생각에는, 소위 신뢰성에 정확성, 응용 프로그램의 범위와는 알의 적용의 범위를 포함 하 여. 현실에서는, 절대적인 신뢰성 존재 하지 않는, 우리만 상대 안정성을 추구 수 있습니다. 많은 독립적인 지식이 나 분석 결과 가능한 상대 안정성을 지원 수 있습니다. 신뢰할 수, 그냥 '관련성'으로 만족 될 수 없지만 '인과 관계'에 초점을 하려고 합니다. 이와 관련, 대형 산업 데이터와 비즈니스 데이터의 이론 모순입니다. 동시에 신뢰성 요구는 우리가 단단한 이론적인 기초-전통적인 통계적 방법 사용 하려고 그냥 맹목적으로 이러한 메서드를 적용할 수 없습니다, 유효성 검사 및 해당 조건의 건설에 관심을 지불.

2, 성격을 넘어입니다. 새로 발견된 된 지식을 사람의 이해를 능가 해야 합니다, 그리고 그렇지 않으면 가치가 있을 것입니다. 비즈니스 활동에 사람들의 이해는 상대적으로 모호한, 큰 데이터 연구 초월의 결과 얻기 쉽습니다. 산업 분야, 물리적 개체의 사람들의 이해는 매우 심오한. 표면 연구는 인간의 경험을 초월 하기 어렵습니다. 이 때, 종종 기반으로 정확한 양적 인간의 경험을 넘어서 새로운 지식을 알려. 그것은 연구 목적으로 경험에서 다른 지식을 찾을 수 적절 한: 산업 분야에서 전문가 들은 서로 다른 결론을 알고 잘못입니다. 예외, 양적 변화-이 현상에 의해 발생, 그것은 전제의 결론의 정확한 정량화에 기반.

3. 포함. 큰 데이터의 응용 프로그램은 적절 한 과정에 내장 되어야 합니다. 일반적으로, 지식을 발견에서 단순한 만족 값을 만들지 않습니다. 산업 응용 프로그램에서는 새로 발견된 된 지식 생산 및 관리 프로세스에 포함 하는 일반적인 연습입니다. 그것은 지적인 과정을 촉진 하는 운반대로 모델을 사용 하입니다. 우리 모두가 알다시피, 큰 비즈니스 데이터 응용 프로그램은 일반적으로 함께 새로운 비즈니스 모델. 이와 관련, 대형 산업 데이터와 비즈니스 데이터 상호 연결 됩니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.