시내 "2013 중관촌 큰 데이터 날" 빅 데이터 지혜 도시 포럼, 인간 과학 및 기술 CEO 우 Zhuhua 테마를 제공 하는 클라우드 "에 대해 지능형 도시 생각 실시간 대용량 데이터 처리 기회와도 전에" 연설. 그는 믿고 큰 데이터 다양 한 산업에 대 한 기회는 다음과 같습니다: 금융 증권 (높은 주파수 거래, 양적 거래), 통신 서비스 (지원 시스템, 통합된 텐트, 비즈니스 인텔리전스), 에너지 (발전소 파워 그리드 모니터링, 정보 수집 및 분석의 전기), 인터넷, 전기 사업 (사용자 행동 분석, 상품 모델 분석, 신용 분석), 지능형 도시 등 다른 산업 사물의 인터넷입니다.
우 Zhuhua: 그것은이 포럼에와 서 큰 영광입니다, 그리고 나는 CEO의 상하이 윤 남자 기술 유한 회사 올해 우리 회사와 2 년 대용량 데이터 실시간 분석에 초점을 맞추고 있다, 때문에 우리의 눈 큰 데이터 기회와 도전, 고전적인 케이스의 일부 뿐만 아니라 대용량 데이터 분석, 거래에서 공유 하 고 싶습니다.
내 이름은 우 Zhuhua, 난 2006 년, 2009 년 중관촌 소프트웨어 파크, IBM 중국 연구소 클라우드 운영 체제 개발 작업을 할입니다. 2009 년 말에 나이 비 중국의 중국 연구소 왼쪽과 2010 년에서 상하이에 반환. 2010 "핵심 기술 분석 클라우드 컴퓨팅" 이라는 책을 썼다, 2011 년에 시작 했다 2012, 2013 지금 상하이 클라우드 인간의 과학에 설정 된 및 기술 팀, 데이터 분석의 분야에 큰 중요성을 부착 윤 테이블 이라는 제품을 출시.
다음, 몇 가지 기회와 빅 데이터 분석에 대 한 시나리오에 대해 얘기 하자. 우리의 2 년의 연습 느낌, 지금 큰 데이터는 이미, 큰의 2 년에서 천천히 큰 변경 변화와 빠른. 그래서 실시간 처리는 많은 산업에 대 한 새로운 요구 사항입니다.
우리는 그 회사는 대용량 데이터 자산, 그는 일반적으로 필요한 실시간 분석을 찾으십시오. 지능형 도시, 사물의 인터넷, 예를 들어 네트워킹 차 가져가 라. 도시, 약는 백 천의 도시에서 카메라의 매초 보내드립니다 데이터 데이터 센터에 클라우드를 처리, 실시간 피드백을 필요로 하는 데이터의 테라 바이트와 함께 매일,이 시나리오에 필요한 실시간 처리 기술.
예를 들어, 자동차, 우리는 자동차 네트워킹을 그는 아마 도시 모든 컴퓨터에 단말기를 설치 해야,이 터미널 100 백만 데이터를 클라우드로 보내려고 클라우드로 전송 하는 교통 정보를 보낼 것 이다 그리고 사용자는 최고도로 상황의 분, 실시간 판단 당 계산 수 운전 조언.
금융 증권, 예를 들어 몇 가지 분석이 필요합니다. 예를 들어 금융 거래 전화 거래 주류 방향, 우리는 매우 큰 클라우드 구축 증권 조직에 대 한 플랫폼 데이터의 수십억의 수만 무대에서 실시간으로, 데이터 인터페이스에서에서 데이터 분석을 제공할 수 있습니다, 신속 하 게 실행할 수 있습니다.
텔레콤, 처럼 우리 여기에 이동에 경우가 있다. 우리는 주 우리는 우리의 권력, 집중에 로드 하는 주에 있는 인터넷에 모든 정보 그리고 우리의 권력 집중 그들에 게 몇 가지 통계 피드백을 줄 수 있습니다, 그들의 비즈니스 지원 시스템, 비즈니스 기술, 및 통계적 인 관련성의 일부 지원에 있다.
예를 들어 에너지 분석, 파워 그리드 모니터링, 전기 정보 수집 분석에에서 주로 사용 됩니다.
예를 들어 인터넷 전기 딜러 그들이 사용자에 게 몇 가지 실시간 분석, 광고의 실시간 홍보를 할 수 있는, 그들은 상품 모델, 사용자에 게 권장 하는 최고의 제품의 분석을 할 수 있다. 예를 들어, 인터넷, 상품 모델은 또한으로 신용 분석. 나는 친구 분석, 신용 하는 것입니다이 사용자의 데이터 분석, 10 초 이상 내 등급 사용자에 게 제공, 신속 하 게 사용자 인지 확인 그에 게 대출 가치.
업계는 대용량 데이터 자산, 회사는 큰 데이터 자산, 일반 종합 경쟁력을 향상 시키기 위해 전력의 대용량 데이터 분석을 위해 필요 합니다.
왜 실시간 분석을 위한 대용량 데이터 필요에 대해 얘기 하자. 첫째, 실시간 의사 결정, 양적 거래, 난 신속 하 게 데이터를 실시간으로 계산할 수 있습니다 여부에 내가 주식을 구입 여부 판단.
둘째, 비즈니스 효율성 향상.
셋째, 우리는 새로운 알고리즘 또는 데이터에 대 한 새로운 전략을 시도 무료입니다. 이 방법에서는, 우리는 신속 하 게 새로운 아이디어와 기회를 실시간으로 시도 통해 발견할 수 있습니다.
Iv입니다. 작업 출력 제공입니다. 내가 발견 하는 더 많은 그리고 더 많은 산업이이 능력을 필요로 하기 시작 하는.
큰 데이터의 도전 이란 무엇입니까? 무슨 즉, 처리 및 데이터의 분석을 완료 하는 데 몇 초, 또는 1 초 대용량 데이터의 실시간 분석 이다. 빠른: 10 초 이내 100 밀리초는 최고의 결과 주어진. 인터넷 기업, 바이 100 밀리초 원하는 결과 줄. 일부 금융 기관 마이크로초에 결과 주고, 실시간 기능을 필요로 하 고는 1th 빠르고, 실시간 분석 이다.
두 번째, 큰, 데이터를 대상 희망 볼륨, TB 당 1 십억 수준, 매우 큰, 멀리 보다는 데이터의 이전 우리의 이해. 우리는 데이터를 생각 하기 전에 10 백만 이상 큰 아니었다. 우리 지금 실행 가장 큰 권력, 집중에 아마도 데이터의 수조에 가까운 수준으로.
셋째, 다양 한 분석 작업을 수행 하도록 하겠습니다. 간단한 쿼리, 또는 알고리즘 및 데이터 분석의 복잡 한 일 수 있다. 이것은 표준 대용량 데이터에 대 한 가장 중요 한 세 가지 포인트입니다. 첫 번째는 10 초 이상 빠른, 그리고 일부 산업은 마이크로초. 두 번째는 큰, 그리고 이상의 1 십억, 수십 테라바이트의 데이터를 대상으로. 셋째, 다양 한 작업의 분석. 기본적으로 이러한 세 가지 포인트에 대 한 일부 산업 수 있습니다 몇 가지 동시성 우리는 큰 데이터 플랫폼 증권 회사, 말했다 당신이 이상 100 밀리초가 필요 하다. 그래서 대용량 데이터의 실시간 분석을 달성 하는 도전 매우 중대 하다.
기술을은 선택할 수 있습니다? 첫 번째는 Hadoop, 자체 hadoop은 Google에 의해 개발 되었다, 그것은 큰 데이터 측면 알고리즘에, 그는 TB 이상, 큰 지역에서 아무 문제. 그리고 작업이 다양 하다, 때문에 그의 온라인 도구는 알고리즘의 많은 아주 좋은. 하지만 그것은 신속 하 고 어 색 한, 그 분을 필요로, 그는 절약 할 수 많은, 그것은 시간이 오래 걸립니다.
둘째, 아니 SQL입니다. 큰, 큰 지원할 수 있어야 합니다. HBase는 큰 할 수 있는 큰 기능을 충족 합니다. hbase는 데이터베이스 이며 간단한 쿼리를 지원할 수 있습니다. HBase 일부 논리 복잡 한 데이터 분석 및 마이닝 할 어렵다. 예를 들어 Taobao, 그들은 더 풍부 하 고, 그들은 많은 하드웨어와 hbase 데이터 개발 클러스터 된 개발 비용을 많이 사용 있을 수 있습니다. 중소 기업, 그리고 전통적인 기업도 없는 SQL 분석을 사용 하 여 적합 하지 않습니다. 그것은 거 대 한 하드웨어 비용 및 개발 비용을 요구 한다.
Oracle는 전통적인 데이터베이스에서 대용량 데이터 분석을 지원 합니까? 지원 알고리즘은 OK, 하지만 그것은 자연 더 어렵습니다.
나의 제안의 소개 메모리 기반 컴퓨팅을 지 원하는, 윤 테이블 이라고 제품 구성, 여겨질 수 있다 또한 데이터 웨어 하우스의 새로운 세대. 윤 테이블의 핵심 포커스, 우리는 디자인, 두 가지 측면에 더 많은 초점: 첫 번째 최적화, 메모리에 초점을 맞추고, 무어의 법칙에서 증가 하는 능력에 초점을 맞추고 우리는 SD 메모리 최적화 했. 하지만 그것은 비싼, 열, 도입 했습니다 그리고 압축 비율이 그 아주 작은 데이터를 집어넣은 수 있습니다. 열 저장 앞서 비용 높은 메이크업.
우리는 끊임없이 우리의 장점 큰 데이터에 반영 고 하드웨어의 개발을 통해 수 있습니다. 3 기능은 상대적으로 빠른, 우리 신속 하 게 대규모 데이터를 처리할 수 있는 데이터 통계 및 분석 할 수 있다. 성능, 오라클에 비해 우리의 독립 실행형 실적은 수십 번 시간, 우리가 할 큰 데이터 실시간 분석. 이것은 우리의 핵심 기능 중 일부 이다.
첫째, 우리는 큰 데이터, 1 십억 라인, 수십억 개의 데이터 행의 수만 계산할 수 있습니다.
둘째, 일반 X86 하드웨어.
셋째, 수백 개의 클러스터를 확장할 수 있습니다.
4, PB-레벨 스토리지입니다.
V R 데이터 마이닝 언어에 대 한 지원으로 멀티 플랫폼 SQL 드라이버를 제공합니다.
우리의 전체 아키텍처, 상단 봐 드라이버입니다. 중간 것입니다 가상 IP, mastes 노드는 두 개의 관리 하도록 할 수 있습니다.
형성은 각 노드에 몇 가지 알고리즘을 통해 데이터 노드, 이러한 노드는 우리의 독립 세대. 그리고 핵심 가치의 성능, 여기에 반영 됩니다.
왜 이렇게 빨리 우리의 핵심 기술 들에 대해 이야기?
병렬 처리입니다.
둘째, 행 및 열 저장을 혼합.
셋째, 압축입니다.
4 메모리 계산입니다.
병렬 처리는 무엇입니까? 자동으로 각 노드에 분산 클러스터로 데이터입니다. 예: 내 10-노드 클러스터 나 10, 개별 데이터를 처리 하는 각 노드에 데이터를 나누어, 10 시간 가속 될 수 있다. 그리고 기계 다운 노드 비즈니스 데이터 연속성의 무결성에 영향을 미치지 것입니다 그래서 데이터의 복사본 여러 복사본을 수 있습니다. 우리는 우리의 질적 과정은 GPU를 지원 하려고 하 더 최적화 될 수 있습니다 최신 명령 집합을 지원 합니다.
두 번째 산업 하이브리드 스토리지입니다. 이러한 간단한 테이블, 먼저 우리 지역에 이름, 나이, 섹스의 데이터를 열 수 있다, 우리가 먼저 파티션을 보장할 것 이다. 우리의 프런트 엔드는 전통적인 라인에, 우리는 행 분할 개발 비용을 많이 저장할 수 있는. 그렇다면 우리는 하단에 갈 그리고 우리는 변환. 전통적인 라인은 자오, 함께 하기 나이 25, 남성, 우리의 백 엔드 이름 성별, 함께 존재 될 것입니다. 내가 쿼리, 이름 및 성별에 대 한 보고는 필요가 없습니다, 저도 나이에, 2/3의 갑작스런 감소는 IO를 줄일 수 있도록 난 단지 필요 수 필요, 열 각 열을 읽이 필요가 없습니다. 효율적인 압축, 우리가 몇 가지 빠른 집계를 할 수 있는, 우리는 최대 값은 31, 최소 24, 이번이에 쿼리를 볼 32 보다 크면. 최대 31, 전체 작업을 가속화할 수 있다.
마지막으로, 열을 기준으로 하 여 몇 가지 새 인덱스 구조를 추가 합니다. 우리의 이해, 전통적인 위치 인덱스에 따라에 따라 그 비용은 매우 높은, 반드시 큰 데이터에 적합 하지 않은 것 같은 시나리오.
이것은 효율적인 압축, 열 기준으로 우리는, 그래서 우리는 매우 높은 압축 비율을 몇 가지 최적화를 할. 높이 7 ~ 20 배 시간, 그리고 우리 다양 한 가벼운 지원, 또한 깊이 지 원하는 압축 알고리즘을 지원 합니다. 예를 들어, 일부 열 데이터를 우리 입찰 알고리즘을 사용할 수 있습니다. 하지만 자주 사용된 하는 데이터의 일부를 눌러 수 있습니다 그것은 매우 작은.
압축 된 데이터를 우리가 해야 압축, 우리가 지금 압축을 이해 하, 더 성능 향상 되도록 처리, 직접 하 고 싶다.
마지막은 메모리 계산, 현재 추세는 점점 더 많은 서버, 메모리 더, 우리가 만들 수 매우 큰 클러스터 데이터의 많은 있다. 그것은 회사의 핵심 비즈니스 데이터입니다. 우리는 금융 제도 위한 큰 데이터 플랫폼을 만든, 전에 약 10 기계 있었다. 우리는 메모리의 2.5 t에 대 한, 우리의 압축 비율 10 시간, 그 메모리,이 기관 10 비즈니스 데이터 처리에 해당 데이터의 25T를 삭제할 수 있습니다. 1th, 신속 하 게 처리 될 수 있습니다, 때문에 메모리, 동시 작업을 많이 할 수 있는 매우 강력한 변경 만들 수 있습니다.
마지막으로, 이것은 Oracle, 그 1 TB 데이터를 분석 하 고 필요한 메모리를 하드 드라이브에서 몇 시간. 50 페이지 테이블, 진짜 5 페이지에서 처리 될 수 있습니다, 그리고 난 50 페이지 5 페이지, 45 페이지 필요 하지 않습니다, IO 읽기 속도 감소 시키기 위하여로.
그리고 마지막으로 압축, 우리는 메모리 계산, 그래서 나는 몇 시간 몇 초에서에서 1 TB io.
당신에 게 몇 가지 간단한 사례를 말해 보자. 첫 번째는 인터넷, 인터넷 전기 딜러의 소셜 네트워크로 실시간 기술을 사용할 수 있습니다. 실시간 인터넷 재생의 효과 대 한 이야기를 모니터링합니다. 광고주 Taobao 플랫폼에 광고를 구입할 수 있습니다, QQ, 시 나 등의 사이트에 이러한 광고를 게시할 수 있습니다, 사용자가이 광고를 보고, 사용자가 일부 로그를 생산할 예정 이다,이 로그를 보낼 것입니다 모니터링 플랫폼 모니터링 플랫폼,이 시간 안에 윤 테이블에 전송 됩니다. 윤 테이블 데이터를 분석합니다.
이러한 분석을 할 수 있는, 우리가이 광고를 클릭 것의이 종류의 우리의 일반적인 분석을 통해 여러 사람이 일단 봐, 우리는 몇 가지 오류 검사 조치를 할 수 있는. 도 분석, 다차원 분석을 겹칩니다.
2, 통신 사업자, 사업자의 많은 시스템을 사용할 수 있습니다. 우리는 특정 주에 그것은 아마 사용자 온라인 불만 시스템 이동, 그들의 자신의 네트워크의 비용은 매우 심각, 10086 호출할 수 발견 인터넷 서핑 하는 사용자 요구. 10086 즉시 끌어 그의 한 달 온라인 데이터를 Youku, 또는 어떤 사이트에 말했다 그래서 많이 사용. 하지만 그들은 10086 10 초 내에 결과 제공 하 고 그들은 그 전에 많은 것을 시도. 마지막으로 우리를 보십시오, 우리는 약 6 노드, 115.3 십억 데이터, 우리가 할 일부 쿼리 2 초 결과에 있을 수 있습니다. 매우 빠르다입니다.
이것은 인텔의 hbase, 그들은 데이터의 조각을 넣어 그리고 우리는 6 노드, 1000 데이터 보다는 더 넣어, 이것은 간격 1000 배입니다.
3 금융 이다입니다. 우리는 모든 국내 증권 기관에 대 한 양적 거래 할. 우리는 하단 2.5 t.에 있는 80 십억 데이터 우리는 실시간으로 다룰 수 있도록 인터페이스를 제공 합니다. 이러한 10 노드, 우리 있고 우리가 총 그의 무역의 30 초 하 고 그의 가격 및 추가 된 평균을 계산. 몇 시간 끝, 처음 50 정보 걸릴 수 있습니다, 그리고 우리는 몇 가지 쿼리를 할. 우리는 모두 100 밀리초, 완전 한 50 밀리초 크기에 있습니다. 우리는 동시성을 지원 하 고 비슷한 작업을 가진 사람들의 1000 지원.
우리 큰 데이터를 실시간으로 해결할 수 있는 우리의 제품 윤 테이블, 그리고 우리는 통신에 있는 성숙한 경우. 오신 것을 환영 합니다 Exchange.
(책임 편집기: 유산의 좋은)