"중관촌 큰 데이터 산업 동맹" 밤 9 시에, "중관촌 큰 데이터 산업 동맹" 마이크로-편지 그룹 통신 100 분 토론에 대 한 "큰 데이터 100 포인트" 포럼을 시작 했다.
바이: 오늘날의 스피커는 과학 쳉 연구원의 중국 아카데미, 우리는 환영 합니다!
바이: 부국장 일반 엔지니어, 연구원, 박사 가정 교사, 네트워크 과학과 기술 키 연구소, 기술 연구소, 중국 과학 아카데미의 감독.
인터넷 높은 성능 소프트웨어와 알고리즘 이론, 네트워크 검색, 팀 지도자와 학문적 인 지도자의 네트워크 정보 보안 방향으로 팀에 종사 하는 전국 네트워크 공간 보안, 인터넷-고성능 소프트웨어와 네트워크 검색 및 마이닝 기본 이론 및 알고리즘 연구 및 관련된 응용 시스템 연구 및 개발, 10 개 이상의 국가 정보 보안 주요 특별 한 프로젝트, 국가 주요 기본 연구 프로그램 (973), 국가 첨단 기술 연구 프로그램 (863)와 과학 기술 혁신 프로젝트 및 다른 주요 작업의 중국 아카데미에 주재 했다.
쳉: 첫째로 모두의 감사 합니다, 미스 바이 주재, 매우 좋은 환경을 만들기 위한 감사 합니다, 우리가 수 있는 브레인 스토밍, 아이디어를 공유. 둘째, 하루 어제와 백색 교사와 교수 Xionghui의 서론 연설 전에 소설 보기는 밝은, 혜택 아 보자.
쳉: 지난 주, Guodong 하자 우리의 생각을 공유 하는 국내 학술 연구 커뮤니티 관점에서. 정말 조금 꺼 려 말할 수에서 수만 대 한 이야기.
쳉: 알다시피, 우리 향기로운 언덕 과학 회의 큰 데이터 포럼, 중국 컴퓨터 학회 큰 데이터 전문가 위원회의 설립을 구성할 2012 년에서 시작 이후 노력 해 왔다 옹호 공동 중국의 큰 데이터 생산 추진 세력에 대 한 호출을 양성 생태 환경 건설, 오늘날의 그룹에 큰 촬영의 대부분은 직접 옹호와 배우입니다.
쳉: 1 년 이상 중국의 큰 데이터 기술 조직을 통해 컨퍼런스, CCF 큰 데이터 회 및 다양 한 주요 하 고 작은 응용 프로그램 정상 및 학술 포럼, 결합 우리의 국립 아카데미 과학 네트워크 데이터 과학 및 기술 키 주요 데이터 관련 주요 연구 및 정보 분석 연구실 인터넷 데이터 분석 관련 응용 프로그램 개발 연습, 난 내 자신의 생각에 대해 얘기.
쳉: 오늘날의 입문 논의 등 3 개의 큰 덩어리를 포함할 수 있습니다: 대용량 데이터의 인식, 엔진 플랫폼 시스템 및 생태 환경에 큰 데이터 베이스 구축의 기본 문제에서 지 원하는 대용량 데이터 분석 기술.
바이: 엔진 플랫폼 시스템, 단 수 또는 복수?
쳉:는 것 단, hehe
@ Reitao: 쳉 준 큰 플랫폼 및 산업 마이크.
쳉: 1. 다시 대용량 데이터의 이해.
큰 데이터는 광범위 한 개념, 의견의 문제입니다. 대용량 데이터의 개념에 대 한 가장 일반적으로 사용 되는 정의 위키백과에 설명 된 비슷합니다: "큰 데이터를 잡으려고 하지 현재 주류 소프트웨어 도구를 통해 달성 하기 위해 적절 한 시간 내 큰 규모, 관리, 처리, 및 기업 의사 결정 더 긍정적인 목적 정보를 데이터 정렬에 관련 된 데이터의 양을 말합니다. 이러한 정의의 명백한 제한 관점의 대용량 데이터를 처리 하는 컴퓨터에서 큰 데이터의 특성의 설명입니다.
우리는 주제의 지식을 자주 분류로 시작 알아요. 다윈의 진화 이론을 앞으로 넣어, 마찬가지로 원래 동기는 동식물 시스템으로 세계 관찰 했다 분할 하는 것 이었다. 분류 시스템 수정에 결국 새로운 세계관 및 인식론을 형성 했다. 우리는 지금 큰 데이터, 문제 큰 금융 데이터 및 큰 과학적 데이터 등 관련된 분야에서의 네트워크에 대 한 우려, 유럽 르네상스의 시작 다양 한 분야에서 현상 관찰 값, 발굴와 결국 우리가 본질과 형태는 새로운 "데이터 인식론"을 발견할 수 있을 수 있습니다 같은 필수 값 효과 생산.
나는 개인적으로 "빅 데이터" 더는 인지 구체화 하 고 생각 하 고, 그것과 미스터 Qian Xuesen 주 창 "위대한 지혜" 본질 매우 가깝다 생각 합니다. 돈을 베테랑 "지혜에 큰" "Wisdomincyberspace", "합성, 지혜를 얻을 수 있을 것입니다." 강조로 번역 큰 데이터 "0 골드 깨진 옥"의 많은 수의 화신의 특성의 4 개의 V의 의미에서 서로 힘, 사이 상호 관계는 그러나 부분 보고는 매우 조각난, 값은 명확 하지 않다. 그래서 데이터, 지혜, 지혜는 "설정"에서 키의 값이 같지 않음 모든 사실, 경험, 그리고 큰 데이터에 포함 된 정보는 개체 및 설정의 내용을. 수집 된 원시 데이터는 종종 과학 및 기술 해석, 알 수 없는 선배의 위대한 가치를 발굴 하기 위해 양쪽의 데이터를 통합 하는 필요의 현재 이해를 반드시 직접 아무 논리. 각 종류의 데이터 소스에는 특정 제한 및 낙후성, 다양 한 원본 데이터의 상관 관계에 숨기는 것과 법의 본질. 만 통합, 사물의 전체 그림을 반영 하기 위해 원본 데이터의 모든 측면의 통합. 큰 데이터 연구와 응용 프로그램을 수행 하 따라서 큰 데이터는 뿐만 아니라 자원의 종류, 도구의 종류 하지만 전략, 인식 및 문화를 적극적으로 홍보 하 고 "데이터 방법론", "데이터 값." 설정
물론, 우리 안만 기대 한다도로, 하지만 또한 철저 하 게. 따라서, 대용량 데이터의 개념, 비행 때 우리 파고 값, 뿐만 아니라 분실 된 방향으로의 혼란에 자연에 대해 생각 하는 기회를 점유 해야 합니다.
바이: 지혜 가치가 되 고, "분산"에 "설정"에서 링크가?
지혜를 생성 쳉: 예, "설정", "지혜" 더 넓은 "값"에 대 일 분 광
@ Dapan: 데이터의 아이디어 궁극적으로 달성 하기 위해 시스템에 의존
@wuyj: 거기 어떤 질적 변화에 수량에는 증가 하는?
쳉: @wuyj "시스템 이론", "reductionism"에서 질적 변화에는 수량에서 너무 비슷합니다-진실
쳉: 산업의 관점에서 현재 대용량 데이터 시스템은 3 가지 기능 및 우리의 2013 년말 출시에 관련 된 10 개의 동향
"1" 대용량 데이터의 고효율 깊이 분석 전용된 시스템 필요
데이터 증가의 신속한 응용 프로그램의 맥락에서 더 나은 에너지 효율성을 달성 하기 위해 비용을 줄이기 위해 대용량 데이터 시스템 필요가 점차적으로 전통적인 일반 기술 시스템, 특수 건축과 기술 처리의 추세에서 휴식. 이와 관련, 국내 알리바바, 바이, Tencent 3 큰 인터넷 거 인은 재판을 만든 있고 매우 좋은 결과 달성. 우리 모두가 알다시피, 바이 두의 큰 데이터 일반 응용 프로그램은 중국 검색, 알리바바의 큰 데이터 일반 응용 프로그램은 데이터 서비스의 트랜잭션 로그 분석 기반, Tencent의 큰 데이터 일반 응용 프로그램은 이미지 데이터 저장 및 사용자 동작 실시간 권장 사항에 따라 광고. 바이 큰 데이터의 가치를 깊이 파고를 지난해 말에 전용된 큰 데이터 단위를 설정 합니다. 알리바바는 함께 데이터 제품에 대 한 통합된 서비스를 제공 하기 위해 다른 비즈니스 단위에서 큰 데이터 기술을 통합 하 고 있다. Tencent의 데이터 플랫폼 부문은 회사의 데이터 통합된 관리 플랫폼에 통합 하는 것 이다. 알리바바 기술, 오픈 소스 커뮤니티와 가장 밀접 하 게 연결 된 Tencent 큰 데이터는 지금 가까이 이동 오픈 소스 기술, 그것의 자신의 연구 및 개발, 소프트웨어에 대 한 기술 수준 기본 설정에서 바이 하 이며 하드웨어 사용자 지정 프로그램은 실천에 넣어 처음 이다. 기술적으로, 그들은 공통점이 무엇을는 더 이상 의존 하 여 전통적인 IoE 하지만 오픈 소스 시스템 (Hadoop, 등) 일반 응용 프로그램에 대 한 대규모, 높은 플럭스, 낮은-비용, 고 강력 하 게 확장 가능한 전문된 시스템을 개발 하는.
"2" 대형 데이터 처리 모드 아키텍처는 다양 한 공존
현재, 구글의 GFs의 MapReduce Apachehadoop 복제 널리 인정 되어 인터넷 회사에서 2008 년 이후와 대형 데이터 처리 분야에서 사실상의 표준 되고있다. 하지만 2013 년에 다크 호스로 등장, 불꽃, 빅 데이터 기술 이상 큰 하나도 했다 신화. 다른 응용 프로그램으로 인해 Hadoop 소프트웨어 시스템 수 없습니다 모든 요구 사항을 충족, 완벽 하 게 호환 Hadoop 기초, 스파크는 크게 더 많은 메모리 처리를 사용 하 여 시스템 성능을 향상. 또한, 학자, Flume, 카프카, 폭풍, 드릴, 임 팔 라의 출현, Tez/스 팅 어, 프레스 토, 스파크/상어, 등, 하지만 하지 않습니다 Hadoop, 대체 큰 데이터 기술, 생태 환경을 확장 하 생태 환경 친절 하 고 완전 한 개발을 촉진 합니다. 미래에 있을 것입니다 더, 더 나은 그리고 더 많은 비-휘발성 저장 수준, 네트워크 통신 수준, 휘발성 저장소 수준 및 계산 프레임 워크 레벨에서 소프트웨어 시스템 전문.
"3" 실시간 점차적으로 컴퓨팅 업계에서 주목을 받았다
Google은 실시간 컴퓨팅으로 업계 선도 2010 년에 Dremel을 시작 했다. 2 개의 최빈값으로 분할 될 수 있다 MapReduce의 성능 기반 실시간 컴퓨팅: 계산, 그리고 대화형 분석. 스트리밍 서버 로그, 실시간 컬렉션에서 유래 컴퓨팅 큰 데이터 배경에서와 같은 페이스 북의 오픈 소스 학자 분산된 로그 수집 시스템, Apacheflume는 유사한 시스템. Apachekafka는 높은 처리량 분산 메시지 시스템, 높은 처리량 및 오류 허용 오차에 의해 특징 이다. 폭풍은 내결함성 분산된 실시간 컴퓨팅 시스템을 안정적으로 스트리밍 데이터를 처리 하 고 실시간 처리를 수행할 수, 그리고 단일 컴퓨터 성능을 초당 기록의 수백만 도달할 수 있다. 폭풍 수 Apachekafka의 큐 시스템으로 통합. 일괄 계산의 보충으로 대화형 분석 및 계산의 목표는 두 번째 단계로 PB 수준 데이터의 처리 시간을 단축 하입니다. Apachedrill은 오픈 소스 Dremel 구현, 비록 그것 적용 하지만 미 숙. Cloudera 주도 임 팔 라 또한 Dremel 구현 가리킵니다, 그리고 또한 MPP 디자인 아이디어를 참조 하는 동안 지금 실용적인 단계 있습니다. Hortonworks Tez/스 팅 어, tez, 원사 (Hadoop2.0 리소스 관리 프레임 워크)에서 실행 되는 DAG 컴퓨팅 프레임 워크의 개발을 주도하 고 스 팅 어는 다음 세대의 하이브. 2013 년 말까지는 프레스 토 배포 SQL 쿼리 엔진, 페이 스 북, 오픈 하이브 성능 보다 10 배 시간까지 데이터의 250PB 보다는 더 많은 것의 대화형 분석을 할 수 있습니다. 유사한 상어는 스파크, 상어의 열 저장 및 스파크 메모리 처리에서 어떤 혜택에 SQL 실행 엔진 그리고 상어 100 시간 하이브 성능 보다 더 나은 것을 주장.
바이: 실시간 컴퓨팅, 스트리밍 데이터, 복잡 한 이벤트 처리
쳉: 이들은 너무 기술적인 세부 사항입니다. 큰 데이터 시스템의 세 가지 특징은 "엔진 전문", "플랫폼 다변화", "실시간 컴퓨팅"
@ Dapan: 대형 데이터 처리 기술을 상대적으로 최근 몇 년 동안에서 안정 되지 않을 것입니다, 기술 및 시스템의 다양 한 되어야 합니다.
바이: 안정 기간에서 다른 기간에 기회의 기간
@ 양심과 양심을 가진 사람:은 알고리즘 문제?
쳉: 예, 그건 무엇 우리에 대해 얘기 "Onesizefitsall" 빅 데이터 시대에는 딜레마와 좋은 기회입니다.
청:이 시간에 오픈 소스 촉진 큰 데이터의 속도 큰 데이터 오픈 소스 모드 변경 됩니다.
쳉: 대용량 데이터 지원 시스템에서 알고리즘 순수한 "장난감"의 게임을 될 것입니다. 물론, 알고리즘의 기본적인 이론을 제외
@ Dapan: 빅 데이터 시대의 도래는 "데이터", 날아가 버 하 "시스템"의 값을 허용 하는 그것의 가치에 기여 하 고 있다. "시스템의 오픈 소스"는 "데이터 개방" 보다 쉬울 것 이다. 오픈 소스와 큰 데이터 사이 가까운 상호 관계 불가피 하다.
(책임 편집기: 유산의 좋은)