목표
시내는 2012 "빅 데이터"는 점차적으로 우리의 비전에 나타나는, 2013 년 "빅 데이터" 토론의 가장 뜨거운 주제 되고있다 다음 큰 데이터 란, 결국에서 큰 데이터 뜨거운 무슨 마법? 대용량 데이터의 정의 살펴 봅시다: "빅 데이터", 또는 방대한 양의 데이터를 캡처, 관리, 처리 및 데이터 정렬 비즈니스 의사 결정 더 긍정적인 목적 정보를 달성 하기 위해 적절 한 시간 내 현재 주류 소프트웨어 도구를 통과 하지 수 큰 규모에 관련 된 데이터의 볼륨을 말합니다. 빅터 Maire Schoenberg 그리고 케네스 Couqueil에 의해 준비 된 대용량 데이터 시대에 큰 데이터는 임의의 분석 (샘플 샘플링)의 지름길을 사용 하 여 큰 데이터의 4V 기능: 볼륨 (대량), 속도 (고속), 다양성 (다중) 정확성 (신뢰성). 이 단락에 대 한 큰 데이터 소스 바이 백과 사전.
사실, "큰 데이터"는 때 아마존, 구글, 마이크로소프트 및 다른 회사 데이터를 발굴 하기 시작 했습니다 90 's로 일찍 출생 하기 전에 하지 2012 년 이제 우리는 지금 사용 하 고 큰 데이터를 사용 하 여 회사와 예 전에 많은 년에 대 한 데이터를 연구 하다 할 수 있다을 볼 수 있는, IBM은 지금 세계에서 가장 큰 정보 기술 및 비즈니스 솔루션 회사. 빠르면 2011 년 IBM 시작 infosphere 대용량 데이터 분석 플랫폼와 같은 구글, BigQuery은 구글 클라우드에 대용량 데이터를 처리 하기 위해 웹 서비스를 시작 했다. 서비스에는 초대형 데이터베이스에 SQL 문을 실행 하려면 Google의 아키텍처를 사용 하는 개발자 수 있습니다. BigQuery 그들의 자신의 데이터 센터 구축에 투자 하지 않아도 사용자가 대형된 데이터를 업로드 하 고 직접, 그것을 인터랙티브하게 분석할 수 있습니다.
이 "큰 데이터 사실, 상대적으로 초기에 외국에서 국내에만 상승 하기 시작 했습니다 표시 시간은 국내 상승에"빅 데이터"와 상대적으로 짧은, 몇몇 SMB 기업 또한 시작 했다 큰 데이터를 추구, 큰 데이터를 그들의 자신의 물통을 금 하지만 데이터에 대 한 중소 기업 겉보기 아름 다운" 큰"의 추세에 있고 싶다 성공 아직도 특정 임계값, 합리적인 있으며 SMB 기업에 대 한 대규모 데이터 응용 프로그램의 과학적인 사용은 올바른 방법으로.
참고: SMB (중소기업 규모의 비즈니스) 중소 규모의 기업 제한 작업 규모, 인력 및 자금을 말합니다. 국가 다른 정의의 중소 기업, 일부 직원의 수로 분할 된다 있고 일부 회전율으로 나눈 또는 시장 점유율.
비즈니스의 유혹에 2 큰 데이터
"빅 데이터"를 거기 집착 하는 기업에 대 한 이유, 항상 일부 업계 전문가 절벽 아래에 (서) 특히 큰 데이터 이므로 매우 마법, 그것은 응용 프로그램 및 대용량 데이터의 사용을 추구 하는 미친 생각 일부 중소 기업 소유자에 게 하는 것입니다.
큰 데이터의 유혹
그래서 결국에서 기업에 대 한 큰 데이터 입니까 혜택, 여기 모든 사람에 대 한 간단한 요약:
첫째, 큰 데이터 마이닝 고객 요구를 이해 하는 기업 수 있습니다.
큰 데이터 사용자에 대 한 기업의 수요를 향상 시키기 위해 기본 엔터프라이즈 사용자의 특성을 분석할 수 있을 수 있는? 대답은 "예", 큰 데이터의 매력입니다. 기업 고용 하지만 이러한 데이터에 대 한 대용량 데이터 원본이 분산 하 고, 없는 것 하지만 데이터 모델링 분석에 대 한 모델을 합리적이 고 유효한 이유는 특정 사용자 동작이 규칙을 찾을 것입니다 및 궤적, 사용자의 이러한 습관, 기업 사용자에 게 관련 서비스를 그들의 자신의 사업에 근거 할 수 있다.
여기에 기업 사용자의 요구를 이해 하 큰 데이터를 사용 하는 방법의 예가입니다. 예를 들어 야외, 타고 클라이언트 좋아하는 될 것입니다 그들의 자전거에 설치 된 모니터링 장비,이 계측기를 통해 이러한 데이터 축적을 통해 자전거 조건의 수를 검색할 수 있습니다, 기업 사용자의 사이클링 일부 교통 상황, 수리가 게 정보 또는 저장소 콘텐츠, 사용자 친화적인의 주위에 있을 수 있습니다 그리고 적절 한 콘텐츠를 적절 한 시기에 사용자의 성격을 판단 하는 사용자의 행동을 통해 솔직 하 게 말해서 기업 정밀 마케팅, 물론, 이것을 할 수 있도록 대용량 데이터의 값을 반영 하기 위해 모바일 끝에는.
둘째, 큰 데이터 응용 프로그램은 엔터프라이즈 시간을 절약할 수 있습니다.
오늘날의 기업에 대 한 저장 크기에 시간, 비용을 절감 하 이지만 그들의 효율성을 개선 하기 위해 데이터의 일부 거 대 한 금액에서이 문제가 되어, 때문에 어떻게 이러한 데이터와 함께 신속 하 게 처리 하지 않아도 큰 응용 프로그램 하지만 좋은 솔루션 데이터 효과적으로 기업 개선 하 고 줄일 수는 엔터프라이즈의 시간. 텍스트 분석, 기계 학습, 그리고 동의어 마이닝에 대 한 의미 체계 데이터를 사용 하 여 그것의 웹사이트에 대 한 최신 검색 엔진 폴라리스 설계 월마트-마트, 예를 들어 했다. 월마트-마트에 따르면 시맨틱 검색 기술 사용 하 여 온라인 쇼핑 10% ~ 15%의 완성 율을 증가 했다. "월마트-마트에 대 한 수십억 달러 의미합니다."
셋째, 큰 데이터 엔터 프 라이즈 개발에 도움이 됩니다.
기업, 큰 데이터 의미 거 대 한 데이터 정보를 파악 하는 것입니다 하지만 이러한 의미 있는 데이터를 특수 처리. 그리고 현재, 많은 중소 기업 국가에서 그들은의 큰 부분 데이터 최대 절전 모드 또는 반 휴면 상태 이며 큰 가치를 생산 하지 않았다. 기업, 큰 데이터는 또한 비즈니스 프로세스를 능률화 도움이 됩니다, 그리고 예를 들어 소셜 미디어 데이터, 웹 검색, 및 중요 한 데이터를 발굴 일기 예보를 활용 하 여 가장 널리 사용 되는 공급 체인 및 유통 경로의 최적화. 두 지역에서 지리적 위치 및 무선 주파수 식별 상품 및 배달 밴, 더 유선형된 노선 개발 실시간 교통 경로 데이터를 사용 하 여 추적 합니다. 인적 자원 사업 또한 인재 채용의 최적화를 포함 하 여 큰 데이터의 분석을 통해 개선 되었습니다.
이러한 간단한 예제에서 우리가 보이지 않는 나쁜. 사실, 기업에 대 한 "빅 데이터" 여전히 매우 유용, 정밀 마케팅 여부에 또는 기업 내부 프로세스 관리는 매우 중요 한 의미 하지만 일부 중소 기업 추구 하는 대용량 데이터에 대 한 마이닝 이렇게 간단 하 고 간단한 것? 사실, "빅 데이터" 잠재력에 대 한 일부 기업 지불 해야 할 것입니다.
3 어려운 하나: 엔터프라이즈 IT 아키텍처 적응 하지 수
우리 모두가 알다시피, 큰 데이터는 단순히 데이터는 기업 저장 하 고 컴퓨터에 저장 된 데이터는 얼마나 많은 바이트 해야 큰 데이터 바이트에 의해 계산 될? 우리는 단순히 현재 엔터프라이즈 데이터 스토리지의 일부를 보 니, 우리는 이해할 수 있다.
엔터프라이즈 IT 아키텍처
그것은 현재 인터넷 기업 데이터 볼륨 1000PB 도달 보고; 에너지 산업에만 중국의 국가 파워 그리드 스마트 미터 데이터 수십 PB의, 의료 분야, 건강 기록의 큰 도시는 년 5PB, 기상 위성 및 날씨 레이다 관측 데이터의 테라 바이트를 매일 형성할 수 있습니다. 통계에 따르면, 2013 중국 생산 보다 더 많은 데이터의 0.8ZB, 2012 번 두 번. 우리는, 사실, 우리가 지금 입력 한 정보 및 데이터 폭발의 시대 찾기 어렵다 이러한 데이터에서 각 산업 데이터를 증식 했다.
그것은 정확 하 게 데이터의 지 수 성장 때문에 기업용 스토리지 부담이 되고있다에 대 한, 간단한 스토리지 장비는 검색 데이터의 엄청난 양의 함께 엔터프라이즈 데이터 스토리지의 요구를 충족 하지 수, 백업 및 기타 응용 프로그램 큰 부담을 가져왔다, 전통적인 IT 아키텍처는 시대의 요구를 충족 시킬 수 있다. 우리가 예를 들어 SAS에서 제공 하는 제품, 5-10의 평균 기업에 대 한 100000 달러의 그들의 제품 가격 5 기업 장비 기본 비용 거의 7 백만 원에 대 한 기준으로 요구를 충족 수, 이것 또한 포함 하지 않는다 후속 업그레이드 및 유지 보수 비용. 따라서, 사실 기업의 제한 된 자금에 대 한 겉보기에 아름 다운 큰 데이터 응용 프로그램은 확실히 한 번 그것에 넣어 좋은 비전, 부적절 한 사용은 절대적으로 밑이 기금.
4 어려움 2: 데이터 모델의 복잡 한 데이터 실현 가능한 값은 매우 어려운
사실, 기업, 순수 데이터 값을 생성 하지 않습니다, 그리고 이러한 데이터를 처리 하 고 실천에 넣어 사용 하는 방법 그래서 데이터 모듈은 대용량 데이터에 대 한 매우 중요 한 데이터 모델링 및 분석, 데이터 모델을 사용 하는 데 필요한 데이터 시각화 수 있도록 값을 생산할 예정 이다.
큰 데이터의 모델은 복잡 한
다른 기업 인사 데이터, 웹 텍스트, 트랜잭션 데이터, 통화 데이터, 센서 데이터, 대량 오디오 비디오, 그리고이 5%만 차지 하는 데이터, 반구조적된 데이터 10%, 85%, 구조화 되지 않은 데이터에 현재 구조화 된 데이터와 같은 다른 데이터를가지고 그래서 기업에 대 한 어떻게 이러한 복잡 한 데이터 유형 통합, 관리, 분석, 데이터의 극대화를 달성 하기 위해 값 큰 문제가 된다.
현재, 성숙 하 고 효과적인 데이터 모델은 단지 일부 기업 또는 산업의 응용 프로그램에 맞게 제한 된 많은 중소 기업 들의 데이터 분석 및 데이터 정렬 있도록 적절 한 데이터 모델이 없을 경우에 대 한 너무 큰 데이터의 사용도 매우 어렵습니다. 데이터 모델은 그들의 자신의 장점과 단점, 그리고 그들은 다양 한 분야에 적용. 모델에 선택은 실제 응용 프로그램 시나리오를 기반으로 합니다. 특히, 일부 기업에 대 한 단일 데이터 모델 자체 솔루션을 만날 수 없는, 많은 대형 응용 프로그램 다양 한 데이터 모델을 통합 해야 할 수도 있습니다.
5 어려운 3: 데이터 독립성 강한 연결 가난한
때 두 번째 난이도 분석 하 고, 우리는 데이터의 많은 종류와 알고 데이터의 구조는 다른, 일부 데이터 독립성을 형성 하기 위하여, 다른 데이터베이스, 다른 운영 체제, 데이터베이스 형식, 하드웨어 플랫폼 같은 프로세스를 공유 하는 데이터에 차이가 있습니다. 이것은 방해를 계속 하는 공유 데이터의 실행. 그래서 데이터 통합 및 이기종 데이터베이스 간의 공유를 실현 하는 방법을 해결 해야 할 긴급 한 문제가 된다.
데이터 격리
기업, "대용량 데이터 분석" 문제, 그리고 모델 및 예측된 분석 및 개발, 기업에서 산업 개혁과 혁신을 달성 하기 위해 개선을 통해 찾을 데이터 분석에 의존 하는 것입니다. 동시에 데이터에 맹인 의존도 경직 된 사고와 의사 결정 이끌어 낸다. 점점 더 많은 것은 정량 할 때 사람들은 데이터 중시의 신화에 빠질 가능성이 더. 그래서 데이터에 노예가 되지 않도록 하는 방법 또한 매우 중요 한 주제가 이다.
6 어려운 4: 데이터 보안 및 개인 정보를 균형 하는 방법
"빅 데이터"의 효과적인 응용 프로그램 정확한 마케팅을 달성 하 고 기업 과정 또는 계약의 미래를 개선 하는 기업을 사용할 수 있지만 얼굴 큰 데이터 개인 정보 보호 문제는 특히 현재 개별 사용자의 개인 정보에는 테이블에 직접 점차적으로 우리 앞에 말했다는 또한 어려운 상황을 균형에 기업 관심.
보안 및 개인 정보 보호는 키
기업, 전자 상거래, 검색 엔진, SNS 소셜 응용 프로그램 및 다른 인터넷 서비스 제공 업체의 효과적인 사용 될 수 사용자 행동 데이터 마이닝 및 분석, 미래 정밀 마케팅에서 또는 일부 상업적 이익을 달성 하기 위해 달성 될 수 있다 하지만 이러한 의미와 활성 사용자의 양식을 통해 정보는 개인 사생활을 피할 수 없다. 그것을 기업에 대 한 기본적인 보장은 사용자 정보의 공개를 방지 하 고 데이터의 보안을 대용량 데이터 분석의 사용.
뿐만 아니라, 일부 불법 기업 사용을 충족 하는 경우 대용량 데이터도 예측할 수 있는 인간의 잠재적인 동작을 제어, 효과적인 윤리 메커니즘의 부재에서 발생할 수 있습니다 일부 불법적인 일 일이, 그래서 일부 기업 적용을 위한 대용량 데이터 또한 결론은 도덕적 인 문제를 포함 한다.
7 요약
기업, 큰 데이터의 핵심 가치는 저장 및 대규모 데이터의 분석, "싼, 급속 한, 최적화" 관련된 변경 및 다른 기술, 큰 데이터를 기존에 비해 예비 판단에 수행 하는 합리적이 고 효과적인 분석을 통해 이러한 세 가지 측면 포괄적인 비용 최적. 미래에 "빅 데이터"를 홍보 하기 위해 인터넷의 조 수에 특히 확실히 해야한다 개발에 대 한 더 나은 전망.
기업, 큰 데이터 모든 기업의 요구를 충족 하지 않을 수 있습니다 하지만 그것 기업 개발 하 고 수익을 향상 시킬 기회를 주지 않습니다 하지만 또한 어떻게 데이터 수집, 처리, 분석 하는 실제 문제에 의해 직면 기업.