얼마나 빨리 큰 데이터의 조 수는? IDC는 2006 년에 세계 전반 생성 하는 데이터의 양은 0.18ZB 이었다 추정 (1zb = 100), 그리고 올해 수 100 기가바이트 이상의 하드 드라이브의 세계에서 거의 모두에 해당 하는 1.8ZB의 크기를 업그레이드 했다. 이 성장은 여전히 가속 되 고 2015 8ZB 거의 도달할 것으로 예상 된다. IT 시스템의 저장 용량은 충분, 혼자 파고 깊이 분석까지입니다.
이 문서에서는 바이 수석 과학자 윌리엄 장, Teradata 교장 고객 책임자 Zhou Junling, yahoo! 베이징 글로벌 소프트웨어 연구 및 개발 센터 건축가 한 Yiping, SAP 중국 기업 정보 관리 컨설팅, 등, 등 4 명의 업계 전문가, 그들의 통찰력을 공유 하 및 대규모 데이터도 전에 대처 경험.
기업의 데이터 볼륨의 크기는 지금 무엇입니까?
윌리엄 장:이 질문은 대답 하기가 쉽습니다. 바이 제품, 뿐만 아니라 검색 엔진을가지고 있지만 또한이 숫자는 대략 수백 PB, 매일 데이터의 처리 지역 사회 및 미디어 제품을 많이 포함 약 수십 PB. 나는 더 명확 하 게 그 당시 규모 기억 그래서 바이 합류 하기 전에 거의 4.5을 했다. 당시와 비교 하면, 현재 데이터 규모 증가 더 놀라운 아마 그 당시 500 ~ 1000 배.
데이터 볼륨 끔찍한, 때문에 어떤 지연 서비스 비즈니스 경제 하락 결과로 몇 가지 장점의 잃을 데이터를 실시간으로 처리 하는 문제는 아니다. 우리의 전략은 실시간, 그리고 오늘에 대 한 더 많은 실시간, 마이크로 블로그 등 인터넷 사용자의 요구, 구매, 두 번째 죽 일.
Zhou Junling: IDC 데이터 통계 보고서에서 데이터 성장은 매우 빠르다. Teradata 데이터의 특정 금액에 비례하여 데이터 개발에서 동향에 더 관심 하 고 둘째, 당 분, 당 얼마나 많은 트랜잭션 볼륨을 포함 하 여이 모델을 공부 하 여 우리에 게 매우 귀중 한은 bi-변화와 성장 모델을 포함 하 여이 추세에 무 겁 게 투자 데이터 과학자는 연구 및 생산 시스템을 기업에 이러한 기술을 적용 하는 토론을 실시 합니다.
한 Yiping: 야 후!의 주요 클라우드 컴퓨팅 플랫폼 Hadoop 되었습니다 34 클러스터, 30000 개 이상의 기계 총, 가장 큰 클러스터는 100PB 이상의 4000, 총 스토리지 용량 주위. 이 몇 배나 큰 수 라고 할 수 있다, 주된 이유는 우리가 최근에 넣어가지고 노력을 많이 사용자 개인 정보 보호와 데이터 보안, EU 규정에 따라 야 후 저장할 수 없습니다 데이터, 1 년 이상 우리의 응답은 때문에 이다: 원래 데이터를 저장 하지 않습니다 하지만 매우 깊이 있는 데이터 마이닝, 정말 귀중 한 정보를 밖으로 파고 및 저장.
뒤 유: SAP, 엔터프라이즈 응용 프로그램 공급자에 초점을 맞추고 더 많은 고객을가지고, 데이터 양을 하 고 우리의 고객은 통신, 금융, 정부, 소매, 및 데이터 레벨 몇 결핵 결핵의 수백 등 많은 데이터 집약적인 기업. SAP는 독일에 있는 15PB에 대해서는, 고객에 게 서비스를 제공 하는 본사에서 데이터 센터에 30000 서버가 있습니다. 우리는 우리의 데이터 센터 서비스 플랫폼, 점점 더 많은 고객 데이터를 우리에 게 사용할 수 의미에 그들의 내부 응용 프로그램을 마이그레이션하는 고객을 돕고 있습니다.
큰 데이터 얼굴 분석을 어떻게 처리 합니까?
뒤 유: 한 한편으로, 우리를 사용 하 여 분산된 저장 뿐만 아니라 표준 가상화 데이터 센터에, 다른 한편으로, 우리는 데이터 응용 프로그램 및 분석의 과제를 충족 하는 메모리 기술을 도입 했습니다. 전통적인 아키텍처는 큰 병목, 디스크 밀리초 단위로 읽어들이고 메모리 나노초를 읽습니다. 따라서, 우리가 예측 분석 또는 많은 수의 작업, 사용자가 데이터를 최대한 활용할 수 있도록 성능 향상을 달성 하기 위하여 메모리 작업에 배치 됩니다 같은 계산 분석의 응용 프로그램 계층에서 할 필요 합니다.
한 Yiping: 야 후!에 대 한 내가 설명 하고자 3 개 부품에서: 데이터 수집, 저장, 처리.
데이터 수집의 영역에서 우리 야 후!, 필터링, 정리 및 데이터, 통합 및 높은 신뢰성에 Hadoop 플랫폼에 퍼 팅에 대 한 책임은 주요도 의해 특징에 여러 데이터 센터 및 기계의 수천의 수백의 실시간 데이터 수집 시스템을 설립 했다. 비록 정확도 상대적으로 높은, 효과 아주 좋은, 하지만 속도가 좀 느립니다. 거기 윌리엄 장, 실시간 요구 사항을 충족 하기 위해 또한 바이패스 시스템, 두 번째 수준에 바이패스 시스템 데이터 데이터 수집의 부분 이다 주요도 하실 수 있습니다.
데이터 스토리지 측면에서 기본적으로 핵심으로 HDFs 걸릴. 데이터 처리, 주요 기술에서는 Hadoop MapReduce와 돼지의 우리 자신의 발전입니다. 현재, 우리는 더 이상 데이터 처리 엔진의 절반 돼지와 함께 이루어집니다.
Zhou Junling: Teradata는 빅 데이터 시대를 도킹 하는 동안 전통적인 엔터프라이즈 데이터 웨어하우스 제품 라인, 지속적으로 혁신 된, 계속 전통적인 bi 도메인 포함 향상 데이터 처리 능력, 따라서 큰 데이터 관리에 적응 하기 쉽습니다. 예를 들어 데이터 액세스 주파수 확인 데이터 온도, 데이터 압축, 대용량 데이터 분석의 요구 사항에 적응, 데이터 관리를 쉽게 합니다.
우리 초 고 규모 데이터 용량 요구 사항은 하드웨어 플랫폼 제품 Teradata 1000의 적응, 35PB의 데이터를 압축할 수 있습니다. 구조적 및 비구조적 데이터의 분석은 다양 한 데이터 통계 및 분석을 포함 한 Teradata 데이터 웨어하우스, 현재 Teradata 엔터프라이즈 데이터 웨어하우스 인터페이스 기반 Hadoop 아키텍처의 통합을 가능 하 게 하는 소프트웨어 패키지와 함께 특히 유용 합니다.
우리는 아마존의 EC2 클라우드 기업 방화벽 외부에 저장 된 데이터를 저장 하는 데 안전한 스토리지 제품을 고객에 게 제공 하기 위해 사용할 수 있는 클라우드 기반 아키텍처를 제공 합니다. 우리 그냥 Hadoop의 MapReduce 응용 중의 일부에 대 한 몇 가지 아주 좋은 도구는 애 스 터 데이터 회사를 인수 했습니다.
윌리엄 장: 클라우드 컴퓨팅 기술 응용 프로그램에에서 인터넷 회사는 비슷한 예를 들어 바이 Hadoop을 사용, 난 이곳의 몇 가지 더 많은 특성을 언급.
첫 번째는 큰 검색, 즉, 웹 페이지, 매우 큰 인덱스의 설립을 파악 하 고 데이터 준 실시간 또는 빠른 업데이트, 지리적 분포 및 중요성 배포 데이터 응용 프로그램 전략에 따라 주로 방 북쪽 또는 남쪽에서 몇 가지 최적화를 할 수 있도록 뿐만 아니라 이다. 또한, 데이터를 사용 하 여 흐름 기술.
두 번째는 기계 학습 알고리즘입니다. 과학 및 기술 분야에서 기계 학습 더의 서버는 매우 복잡 한 계산에 데이터의 메모리에, 오랜 시간 동안 실행 될 수 있습니다. 바이, 사용자 행동 피드백 무엇 해야 것이 좋습니다 어떤 콘텐츠를 일치 하는 광고의 어떤 종류를 사용자의 요구를 판단 등 모든 장소에 적용 하는 기계 학습, 적시성 매우 높습니다. 증분, 대규모 기계 학습 방법을 호출할 수 있습니다.
또한, 인터넷 응용 프로그램의 개발을 계속 열쇠 더 귀중 한 데이터를 찾을 것입니다, 그리고 즉, 어디 데이터에서 온에 우리는 값에 따라 처리 하는 방법을 결정 해야 한다.
당신은 끝 없는 NoSQL 기술에 어떻게 생각 하십니까?
합리적인, nosql 세대 이며 진화는 또한 우리의 기존 응용 프로그램의 요구 사항이 뒤 유: 난 항상 생각 했습니다. 현재, 큰 동시성 및 높은 효율적인 읽기 및 대규모 데이터의 쓰기의 측면에서 관계형 데이터베이스에 대 한 높은 요구 이며 NoSQL이 점에서 독특한 가치와 장점이 있다.
물론, 이것은 일부 응용 프로그램, 특히 엔터 프 라이즈-클래스 응용 프로그램, 트랜잭션 실시간 읽기와 개발의 년 동안에서 높은 요구 사항, 그리고 관계형 데이터베이스의 쓰기 일관성 그것의 자신의 이점을 축적 때문에 NoSQL의 모양을 나타내는 관계형 데이터베이스의 세계의 끝을 말하는 것이 아니다.
따라서, 아주 많이 동의 NoSQL은 "뿐만 아니라 SQL", 미래에 관계형 데이터베이스와 NoSQL 공존할 것 이다 또는 통합도는 믿습니다.
한 Yiping: NoSQL은 매우 광범위 한 개념 이다. 야 후에 NoSQL, 하지만 많은 nosql 도구, 키 값 데이터베이스 및 다른 시스템을 사용 하 여 비록 모두에 속한다 NoSQL 프레임 워크. 많은 경우에는 산에 대 한 필요 그리고 NoSQL, NoSQL에 대 한 필요성 때문에 NoSQL와 SQL의 관계에 관해서는 나는 종종, "하나님은 공평 하다" 때 수요를 다른 것을 포기 필요가 있을 때 발생 합니다. 우리의 요구에, 큰 데이터 볼륨 및 높은 배포판의 많은 새로운 병목 이러한 요구 사항이 요구 될 수 있습니다. 사실, 우리를 위해, 인터넷 업계 필요 하지 않습니다 많은 응용 프로그램에서 일관성. 수요를 완화 하는 때 그것은 자연스럽 게 다른 요구를 만날 것입니다.
내 데이터의 값을 하는 방법?
윌리엄 장: 나는 광고의 직관적인 예제를 제공, 그것은 포함 하는 데이터의 두 종류: 하나 광고 창 고, 즉 광고 콘텐츠 정보 및 광고 고객 정보, 정보의이 종류는 전통적인 데이터베이스에 대 한 적합 한, 다른 종류의 정보는 사용자 광고 후 모든 행동을 보고, 누적 축적을 경험 했다, 껍질 벗기기 사용자 동작을 할 수 있습니다. 이 두 종류의 데이터를 결합 수, 기계 학습 알고리즘 값을 생성할 수 있습니다. 분명히, 두 번째 종류의 정보는 더 중요 한, 사용자가 검색 한 단어 등 원하는 정보를 제공할 수 있습니다 사용할 수 있습니다 그를 전에, 그의 그룹 정보, 그룹 행동, 어떤 종류의 정보는 어떤 종류의 정보는 정보 부정 수 있습니다, 가장 중요 한, 최고의 품질 확인 후 그리고 피드백 메커니즘을 통해 모든 사용자가 사용자에 게 최상의 콘텐츠를 제공 하 고 관련된 검색, 쿼리 정보 몇 가지를 추천. 즉, 데이터는 모든 비즈니스에 대 한 혈액 그리고 클라우드 데이터 센터 또는 클라우드의 존재에 대 한 이유 컴퓨팅을 클라우드 컴퓨팅, 데이터 처리에 대 한.
한 Yiping: 우리 자주 작업 후 농담: 수 데이터에서 파는 것 들, 필요 하지 않게 돈 더 중요 한 것은, 사용자 경험, 인터넷 기업, 데이터 다.
야 후는 그냥 검색 엔진, 다양 한 분야에서 1 위는 미국에 있는 많은 사이트. 우리 뉴스 사이트 정보 등 작업을 많이 할 관련성에 따라 뉴스와 권장 모두의 관심, 우리 원하는 기반으로 각 사용자가 자신의 관심과 추천 관심,이 순간에도 모든 사용자. 야 후 뉴스 추천 시스템, 깊은 광업 및 개인 설정, 각 사용자 분석 및 우리와 함께 고객을 제공할 수 없는 이러한 데이터 없이 추천에 대 한 경험, yahoo 모든 데이터 수집, 모든 작업을 함께 수집 됩니다 야 후 검색에서 사용자는 데이터는 우리에 게 모든 것.
뒤 유: 이므로 데이터 값에 인터넷의 관점에서 나 공유 것입니다 그것은 기업의 관점에서.
스마트 그리드는 지금 유럽의 터미널, 소위 스마트 미터. 독일에서 태양 에너지의 사용을 장려 하기 위해 태양 에너지 설치 됩니다 태양 에너지는 잉여 전기도 다시 살 수 있을 때 당신에 게 전기를 판매 뿐만 아니라 가정에서. 매 5 분 또는 10 분 그리드를 통해 고객의 전기 습관, 예측 하 고 얼마나 많은 전기를 유추를 사용할 수 있습니다 데이터 수집 전체 그리드 다음 2-3 개월 이상 필요 합니다. 이 예보와 함께 일정 한 양의 전기 발전 또는 전원 공급 회사에서 구입할 수 있습니다. 때문에 전기 비트 처럼 선물, 구매 사전에 상대적으로 저렴 한 될 것입니다, 구매 장소는 더 비싸다. 이 예측 후 구입 비용을 줄일 수 있습니다.
또 다른 예는 개인적인 관심의 더 이다. 댄 브라운의 잃어버린된 비밀 책 한 지점에 많은 사람들이 집중 하는 경우 개체를 이동할 수 있습니다 말한다. 물론, 우리는이 확인할 수 있습니다 하지만 우리가 키워드, 중요 한 단어에 대 한 인터넷 검색 우리는 특정 물질의 공중 태도 확인할 수 있을 것입니다. 온라인 광고의 효과 평가 하기 위해 이러한 기술을 사용 하 여 네트워크 광고 평가 회사 하 고 같은 몇 가지 새로운 비즈니스 모델, 비즈니스 가치 세대의 미래에 있을 수 있습니다 생각.
기업 및 기술자를 대량 데이터 나 포즈도 전에 무엇입니까?
한 Yiping: 우리 말을 우리는 소프트웨어 엔지니어, 우리 업계는 소프트웨어 업계 라고도 하지만 내가 생각 하는 우리는 진짜 정보 기술 산업 사용. 대부분의 사람들에 대 한 가장 중요 한 것은 지금 데이터 개념 설계 및 개발의, 처음에 데이터를 넣어에 코드/프로그램 개념에서 개념를 변경 하는.
뒤 유: 대규모 데이터 성장 하고있다, 하지만 우리가 그것을 통제 하려고 한다 그리고 미래의 추세 확장 시키는 것이 아니라 데이터의 질량을 축소 하는 방법 이어야 한다. 또한, 대량 데이터 나이 중국이 세계를 리드 하는 기회의 IT 산업.
Zhou Junling: 클라우드 컴퓨팅 시대, 비즈니스 데이터 및 클라우드 사업 개발 기능을 제공 하도록 밀접 하 게 결합 하 여, 우리가 배운 새로운 것 들을 많이, 거기에 몇 가지 더 이상 자신의 저장 고 개발, 하지만 구름에 저장 됩니다. 기술 제품 판매 방식으로 과거에 비해 많이 변경 되었습니다. 구름에 대 한 이러한 환경 또한 정체성의 무결성을 포함 하 여 저장소를 보호 하는 방법 같은 데이터베이스 공급자에 대 한 다양 한 기술 과제를 포즈. 이 관한 데이터 저장, 예를 들어 데이터 출하 되 지금 어디 데이터 주권의 문제에 대 한 제공, 특정 국가에 세계에서 이며 일부 국가 정부는 국가의 특정 부분에 배치 될 데이터를 허용 하지 않을 수 있다는 사실을 보안 문제에 기술적인 해결책을 요구 하는 도전.
윌리엄 장: 여기 나 느낌의 두 포인트 말하는 거 야.
첫째, 데이터 관리는 DBA의 중요 한 기술 그리고 대학, 컴퓨터 교육에서 데이터 프로그래머에 없는 특별 한 강조와 관리자가 없는 데이터; 둘째, MapReduce는 새로운 개념, 빠르면 30-40 년 전 때 컴퓨터 능력은 아주 작은, 함수형 프로그래밍 언어 표시, 하지만 지금까지 mapreduce 또는 대학, 유사한 데이터 처리에 아무 과정 되었습니다 그리고 그들 거의 아무도 들어있다.
미래는 구름에서 모든 인생 경험 데이터, 이것 달성 될 수 있다, 하지만 잘못 된 데이터 보안, 다음 최종 구현 해결의 문제 아주 멀리 됩니다. 클라우드 컴퓨팅은 클라우드 기술, 클라우드 정보, 그냥 계산 도구 될 기대 합니다. 데이터 통합 및 공유의 설립은 클라우드 성공 위한 필요 하 고 충분 한 조건 컴퓨팅.