큰 데이터 종말 omens 또는 큰 사업 기회?

출처: 인터넷
작성자: 사용자
키워드: 빅 데이터 빅 데이터 기술 우리가 일부

우리 모두 들 었 다음 예측: 2020 년 세계에 전자적으로 저장 된 데이터의 양을 도달할 것 이다 35ZB, 40 번은 2009 년에는 세계의 보유. IDC에 따르면, 2010 년 말에 1.2 백만 PB, 또는 1.2ZB 전역 데이터 볼륨에 도달 했습니다. DVD에 데이터를 구울 경우 달에 지구에서 Dvd 스택과 (약 240000 마일 방법 중 하나)를 다시 수 있습니다.

사람은 하늘에 대해 걱정 하는 경향이 있다, 등 다 수 없을 수도 있습니다,의 세계의 끝을 나타내는. 낙천적,이 숫자는 정보 금광 및 포함 된 부 된다 더 쉽게 채굴 기술 발전.

"빅 데이터" 시대에 거기는 신흥 데이터 마이닝 기술, 데이터 부 저장 하 수 처리 분석 되 고 저렴 하 고 그 어느 때 보다 더 빨리 전에. 거기는 구현할 환경, 대용량 데이터 기술 많은 기업, 따라서 변화 하는 방법으로 사용할 수 있는 다음으로 많은 산업 비즈니스를 실행 합니다.

큰 데이터의 우리의 정의 유용한 데이터 통찰력을 제공 하기 위해 데이터와 구조화 되지 않은 데이터의 대규모 컬렉션을 발굴 하 둡 하 되이 국한 되지 않음 등의 비 전통적인 데이터 필터링 도구를 사용 하 여.

큰 데이터 및 "클라우드 컴퓨팅"의 개념 처럼과 대 광고를 많이 하 고 불확실성의 많은. 이 위해, 우리는 큰 데이터는 그리고 무엇, 그리고 데이터 마이닝의 미래에 큰 데이터 의미를 설명 하는 분석가 대용량 데이터에 대 한 전문가의 수 상담.

큰 데이터의 개발 배경

대기업, 큰 데이터에 상승 일부 있기 때문에 컴퓨팅 파워는 저렴 한 비용, 사용 가능 및 시스템은 이제 멀티태스킹의 능력 이다. 둘째, 메모리의 비용 또한 급락은, 그리고 기업은 그 어느 때 보다 메모리에서 더 많은 데이터를 처리할 수 있습니다. 그리고 집계 컴퓨터 서버 클러스터로 쉽게 지 고 있다. 칼 Olofson, IDC의 데이터베이스 관리 분석가,이 세 가지 요소의 조합 큰 데이터를 양산 했다 생각 합니다.

"뿐만 아니라 우리가 합니까 이러한 것 들, 하지만 우리는 저렴 한 비용에 그들을 할 수 있는," 고 말했다. "과거에는, 일부 대형 슈퍼 무거운 처리 시스템, 단단히 집계 클러스터로 함께 건설에 참여 했습니다 하지만 그들은 특별히 설계 된 하드웨어 이기 때문에, 그것은의 수천 또는 심지어 수백만 달러의 수백 비용." 그리고 지금 우리 일반 상품화 하드웨어와 같은 컴퓨팅 파워를 얻을 수 있다. 이 우리 보다 신속 하 고 싸게 더 많은 데이터를 처리 하는 데 도움이 됩니다. "

물론, 큰 데이터 웨어하우스 모든 기업 대형 데이터 기술을 사용 하 여 말할 수 있다. 그 기술 빅 데이터 기술에 대 한 먼저 해야 비용 저렴, 뒤에 두 IBM에 의해 설명 된 세 가지 "V" 조건에 맞게 필요를 주장 하는 IDC: 다양성 (다양 한), 볼륨 (볼륨)과 속도 (velocity).

다양성은 데이터 구조화 및 구조화 되지 않은 데이터를 포함 해야 의미 합니다. 볼륨 분석 매우 큰 것을 위해 함께 집계 되는 데이터의 양을 말합니다. 그러나 속도,, 데이터 처리 빨리 해야 의미 합니다. Olofson 큰 데이터 "하지 항상 있다 수백 TB." 라고 실제 사용, 때로는 수백 기가바이트의 데이터 호출할 수 있습니다 그것의 제 3 차원에 주로 달려 있는 큰 데이터에 따라 즉, 속도 또는 시간 차원. 1 초에 300 GB의 데이터를 분석할 수 있습니다 및 일반적으로 1 시간 소요,이 거 대 한 변화의 결과 큰 가치를 추가 합니다. 큰 데이터 기술은이 세 가지 조건 중 두 개 이상을 달성 하는 저렴 한 응용 프로그램입니다. "

오픈 소스 관계

"많은 사람들이 생각 하 둡 빅 데이터와 동의어 이다," 고 말했다. 하지만 그것은 실수 였다, "Olofson 설명 했다. Teradata, MySQL, 및 "스마트 클러스터 기술" 구현 중 일부의 예 Hadoop을 사용 하지 않습니다 하지만 또한 대용량 데이터의 구현 경우 것으로 간주 됩니다.

대용량 데이터에 대 한 응용 프로그램 환경, Hadoop MapReduce 환경, 하이퍼 계산 원, 주로 Google에서 만든 프로젝트에서에서 일반적으로 사용 되는 단순화 된 환경에 기반 하기 때문에 사람들의 주를 끈다. Hadoop은 밀접 하 게 관련 된 다양 한 아파치 프로젝트, HBase 데이터베이스를 포함 하 여 MapReduce 환경에서 만든 하이브리드 구현 환경.

소프트웨어 개발자는 일반적으로 모든 것 Hadoop을 사용 하 여 응답 하 고는 비슷한 고급 기술을 다 오픈 소스 커뮤니티에서 개발. "그들은 어지럽게 만들고 바뀐다는 것, 소위 NoSQL 데이터베이스 처리를 위해 최적화 되어 데이터베이스의 키 값의 대부분 전력, 다양화, 또는 데이터베이스 크기," Olofson 말했다.

오픈 소스 기술은 일반적으로 하지 상업적으로 지원, "그래서 이런 것이 들 해야 시간이 지남에 진화 하 고 점차적으로 일반적으로 년 걸릴 결함을 제거 합니다." 즉, 신생의 대용량 데이터 기술 인기가 되지 않습니다 아직 일반적인 시장에서. 동시에 IDC 예상 올해 말까지 Hadoop에 대 한 지원의 어떤 종류를 제공 하기 위해 적어도 3 명의 상업 공급 업체. Datameer, 같은 다른 공급 업체는 또한 그들의 자신의 응용 프로그램을 개발 하는 사업을 허용 하는 Hadoop 구성 요소와 분석 도구를 제공 합니다. 예를 들어 Cloudera 및 tableau 그들의 제품에서 Hadoop를 이용 했다.

관계형 데이터베이스 업그레이드

업계 전문가 일반적으로 대형 데이터 기술 또한 고려 되어야 한다 관계형 데이터베이스 관리 시스템 (RDBMS)을 업그레이드 하는 경우 동의 합니다. "빅 데이터 기술은 더 빨리, 더 큰, 저렴 한 상황에 적용 됩니다," Olofson 말했다. "예, Teradata 하면 시스템, 확장 가능한 저렴 하 고 클러스터 된.

그러나 다른 사람,, 생각 하지 않는다 이렇게. 마커 스 콜린스, 가트너의 데이터 관리 분석, "고 말했다,"는 RDBMS를 사용 하 여 BI 도구는 일반적으로이 과정은 정말 큰 데이터. 이 프로세스는 오랜 역사를가지고 있습니다. "

그래서 누가 정말 큰 데이터 분석 사용 하 여?

1 년 전, 큰 데이터 기술의 주요 사용자의 일부는 페이스 북과 야 후, 스트림 데이터를 분석 하는 데 필요한 같은 대형 웹 회사 했다. 하지만 오늘, "빅 데이터 기술 웹 넘어 왔다 그리고 그것은 가능한 많은 데이터를 다루는 기업에 대 한." "예, 은행, 유틸리티, 정보 서비스 및에 취하고 있다 큰 데이터가이 차."

사실, 빅 데이터 기술 중 일부는 적절 한 웹 서비스를 만드는 소셜 미디어에 의해 구동 하는 최첨단 기술로 회사에 의해 사용 되었습니다. 그들은 큰 데이터 프로젝트의 기여에 대 한 중요 하다.

다른 수직 산업에 몇몇 회사는 그들의 가치 지향 정보 서비스 기반 이므로 그들이 이전에 상상 했던 것 보다 훨씬 더 큰 큰 데이터 기술을 신속 하 게이 회사의이 주목을 받고 있다 깨닫고는. 하드웨어와 소프트웨어 비용에 드롭와 결합,이 회사에서에서 찾아낼 큰 사업 전환에 대 한 기회의 완벽 한 폭풍.

뉴욕 시의 TRA 회사는 TV 광고주 그들의 TV 광고의 효과 측정 하도록 설계 되었습니다 그리고 그것은 소매 상점에서 그들의 청구서와 함께 가족 텔레비전 및 DVR (디지털 비디오 레코더)을 통해 수신 광고를 비교 합니다. 회사는이 비교를 만들기 위해 케이블 텔레비전의 DVR 및 일부 상품 매장 회원 카드 프로그램에서 데이터를 수집 합니다. TRA의 큰 데이터 시스템 대표 초-작업 등 많은 세대의 시청 습관의 1.7 백만 거의 큰 데이터 기술 없이 달성 될 수 있다에 의해 처리 되는 데이터의 양입니다. 회사는 신속 하 게 로드, 설명, 및 데이터 분석, 수집 세분화 된 광고 DVR, 및 프랜 정보를 사용자 지정 된 보고서를 생성 하는 판매 정보를 볼 수 Kognitia의 WX2 데이터베이스를 배포 합니다.

"우리의 기존 전체 데이터베이스의 절반 즉 우리의 고객 쿼리를 실행 하는 경우 응답 시간이 시간별 또는 일본어 보다 두 번째는, 메모리에 있을 수 있습니다 그래서 메모리 실행 솔루션, Kognitia는" Tra의 CEO 마크 리버 먼 말했다.

데이터베이스는 일반적인 하드웨어에서 실행 될 수 및 Tra의 프런트 엔드 응용 프로그램에 만들어집니다. Net Visual Studio. "우리 또한 MySQL의 작은 비트를 사용 하 여 및 DevExpress, 사용자 인터페이스 개발 은" 리버 먼 말했다.

그의 보기에는 미국에 70 십억 달러 TV 광고 시장에 혁명을 일으킬 수 있는 큰 데이터 기술. 광고 평가의 전통적인 방법은 샘플링 데이터를 분석 하는 특별 한 세트-가기 상자를 설치 하는 국가의 20000 샘플 가족에만 설치할 수 있습니다. 오늘, 큰 데이터 기술 2.5 백만 DVR과 셋톱 박스에서 실제 데이터를 분석할 수 있습니다.

그렉 벨, 애 버 딘 그룹의 애 널 리스트 믿고 큰 데이터 도구 사용 TRA 다른 회사 대용량 데이터의 속도, 볼륨 및 다양성 기준을 충족. "소매, 큰 데이터는 매우 인상적인 업계는 데이터 분석, 많은 전통적인 방법으로 그것은 생각할 수, 때문 에" 소셜 미디어 사이트, DVR 장치 및 상품 매장 회원 카드 데이터 등. "업계의 데이터 방은 너무 거 대 하 고 복잡 한 소매 업체 큰 데이터 플랫폼에 의존 하 고 그래서 전통적인 데이터베이스 도구를 사용 하 여 분석 하는 것 이다." "

마찬가지로, 큰 데이터 기술 마케팅 회사 플로리다 산 피트에 카 탈리 나 혁명을 했다. 회사는 회원 고객, 크기, 190 백만 미국 상품 매장에서 역사적인 판매 데이터를 포함 하 여 년 동안에 2.5PB의 큰 데이터베이스. 그것의 가장 큰 데이터베이스는 엄청나게 425 백만 행의 데이터, 그리고 회사 약 625 백만 행의 하루이 데이터베이스에 데이터를 관리할 필요가 있다.

데이터를 분석 하 여 카 탈리 나 몇 가지 주요 소비재 제조 업체 하 고 대형 슈퍼마켓 체인 예측 소비자 구매 수 고 누가 새로운 제품에 관심이 있을 것입니다.

"우리는 기술, 데이터를가지고 데이터 기술을 하 고" 카 탈리 나의 수석 부사장 및 CIO 에릭 윌리엄스는 말했다. "기존 기술 중 일부는 데이터베이스에 대 한 그들의 분석 기법을 사용 하 여 SAS 하면," 고 말했다. 그들의 전체 사업 크게 변경 되었습니다. 우리가 전에, 이런 것이 들 하 고는 하지만 심각한 기술적 제약 때문에 우리는 우리가 달성 하고자 하는 목표를 달성 하기 위해 수 없습니다. 우리 우리는 개발 도구 중 일부를 사용 하 고 이러한 도구를 얻을 수 있는 것은 매우 제한. 큰 데이터 기술의 출현 우리의 전체 기업을 혁명을 했다. "

그것의 독점 시스템에 몇 가지 오픈 소스 소프트웨어를 사용 하 여, 카탈리나는 또한 Netezza 데이터 웨어하우스 장치 플랫폼에서 SAS 분석 도구를 사용 합니다.

큰 데이터 미국의 은행 사업 방식을 변경 근본적으로 이다. Abhishek 메타, 뱅크 오브 아메리카의 큰 데이터와 분석의 전 이사 말했다에 2010 년 10 월 Hadoop 세계 의회, "내가 생각 하는 오늘날의 Hadoop은 리눅스 처럼 20 년 전." 우리 모두 엔터 프 라이즈 소프트웨어 시장에서 리눅스의 성공을 참조. Hadoop은 같은 성공을 달성할 것입니다. 그것의 성공은 단지 시간 문제 이다. "

탭-스트림 데이터와 트랜잭션 데이터 분석, 뿐만 아니라 Hadoop 또한 뱅크 오브 아메리카의 다양 한 비즈니스 문제를 신속 하 게 해결 하기 위해 수 있습니다. "무엇 나 수의 은행 고객 사기의 제거 하는 방법으로," 메타 말했다. "지금, 내가 각 고객에 대 한 모든 사기 이벤트의 지난 5 년 동안 철수 모델 구축할 수 있습니다." 그 전에, 우리는 샘플링 방법을 사용 하 고 특정 한 경우는 모델에 적합 하지 않을 것을 발견 했다 때 모델링 하는 데 필요한 모델을 구축 했다. 일은 마지막으로 위에. "

유틸리티 산업 단지 응용 프로그램 및 큰 데이터의 가치를 이해 하기 시작 합니다. 중서부 지역에서 전력 회사 결제 기능을 자동화할 수 있는 스마트 미터에서 데이터를 분석 하 둡을 사용 하지만 그것은 또한 전송 라인에 임의의 전류 변동 수집. "만약 당신이이 정보를 수집 하 고 현재 변경 다이어그램을 설명할 수 있는, 찾을 수 있습니다 특정 장소에서 변압기를 실패 하기 전에," Olofson 말했다. "또는 정전이 발생 하면 회사 수 변동 감지 하 고 사용자에 대 한 도움말 호출 하기 전에 행동. "

Olofson 예측 어떤 시점에서 앞으로, 전력 회사를 사용 하 여 대용량 데이터 기술 그들의 고객 서비스를 개선 하 고 파워 그리드 모니터링을 통해 운영 비용을 줄일 수 있을 것입니다, 문제 검출 및 전력 격자-하지만이의 미세 조정 노화 인프라의 일부 주요 업그레이드 해야 합니다.

일부 브랜드 마케팅 회사 소위 "감정적인 분석" 소셜 미디어에서 실험 또한 Hadoop을 사용 하는. 이러한 서비스 공급자 Hadoop을 사용 하 여 Twitter에 고객의 행동을 관찰 하 고 무슨 말을 하 고 특정 제품에 대 한 생각을.

신중 하 게 행동

대용량 데이터 기술 급속 하 게 개발 하고있다. 스스로 큰 데이터 기술을 사용 하 여 일부 기업은 큰 데이터 기술의 진보와 기업의 요구에 잘 적응할 수 있는 고도로 숙련 된 IT 전문가가 있다.

"만약 당신이 없어 대용량 데이터를 배포, 서비스 제공 업체-아마도 클라우드 서비스 공급자 선택 또는 성숙한 소프트웨어 제품 및 지원된 서비스의 많은 특정 지점 성숙 큰 데이터 기술에 대 한 대기 조건" Olofson 고 말했다.

데이터 마이닝의 근본적으로 변경 된 의심의 여지가 있다. 하지만 전문가 들은 오늘날의 데이터 웨어하우징 및 데이터 마이닝 도구 큰 데이터 기술을 완전히 대체 하지 것입니다.

"기존 데이터 마이닝 정말 없는 매우 큰 데이터, 그래서 상대적으로 복잡 한 분석 모델을 구축 해야" 가트너의 콜린스는 말한다. "지금, 큰 데이터 제공 회사를 매우 많은 양의 데이터를 회사 더 이상 복잡 한 분석 모델을 구축 해야한다는 것을 의미 한다." 따라서, 데이터 마이닝 분석 방법에 상당한 변화 됩니다. "

"나의 요지는 큰 데이터 실제로 데이터 웨어하우스의 시장 용량을 확장," Olofson 말했다. 회사 기술을 사용 하 여 mapreduce, 등 여부 Hadoop 또는 일부 다른 상업적인 확장 하기 전에 사용할 수 없었던 흥미로운 비즈니스 인텔리전스 데이터를 생성. 다음 데이터를 다시 사용 하 고 기록 데이터를 추적, 엔터프라이즈 데이터 웨어하우스 사용 확대 실제로 데이터 웨어하우스에 데이터를 넣어 것입니다. "

큰 데이터의 크기를 나타내는 또 다른 도전, 콜린스 "고 말했다," 거기 없다 성숙 아키텍처 모델 배포 및 사용 하 여 대용량 데이터 기술, 우리 동안 우리가 그것을 하 고 배울 수 있다. "

하지만 콜린스 때문에 이미 다양 한 사전 패키지 된 도구에서 선택할 수 있지만 기술은 여전히 매우 많은 프로그래밍 인터페이스는 후퇴 비즈니스 인텔리전스 같은 일부 대용량 데이터 기술 자체의 위험 제거 되 고는 믿고 있다. 예를 들어 "Hadoop은 고도의 기술 시스템, 하지만 비즈니스 인텔리 전스의 자극, 점차적으로 입력 하고있다 기업 및 데스크톱, 매우 좋은 사용자 인터페이스를가지고." 한편 하 둡을 사용 하 여 단계 인기에서 다시 일부 신흥의 그것 필요로 하는 사용자 커뮤니티를 밀어 공급 업체 도움이 됩니다. "

"빅 데이터 기술 또한 도약, 약간 있이 필요가 우리 비즈니스 단위 사용자에 게 이러한 도구를 제공 해야 하지만 우리가 바로 지금 할 수 없는" 콜린스 추가.

대용량 데이터 기술에 대 한 세 가지 오해

큰 데이터 이며 무엇을 할 수에 대 한 업계에서 혼란의 많은 있다. 다음은 빅 데이터에 대 한 3 개의 일반적인 통념입니다.

1, 관계형 데이터베이스 큰 데이터 기술을 고려 필요가 없습니다 그래서 매우 큰 볼륨을 확장할 수 없습니다.

2, Hadoop 또는 그것의 확장, 모든 mapreduce 환경 실제 작업 또는 환경에의 사용을 고려 하지 않고 대용량 데이터에 대 한 최선의 선택입니다.

3. 관계형 데이터베이스 관리 시스템의 시대는 끝났습니다. 진정한 관계의 개발은 대용량 데이터의 배포에만 얻을 수 있습니다.

(책임 편집기: 루 광)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.