CAs의 학회 회원: 큰 데이터 및 대용량 데이터의 과학 및 기술적인 문제

출처: 인터넷
작성자: 사용자
키워드: 우리 빅 데이터 과거

첫 번째 중국 클라우드 컴퓨팅 컨퍼런스 6 월 2013 5-7 일 베이징 국립 컨벤션 센터에서 열렸습니다. 회의 국제적인 관점, 통찰력에 글로벌 클라우드 컴퓨팅 동향, 그리고 응용 프로그램에서 찾아보기 클라우드 컴퓨팅 및 대형 데이터, 클라우드 컴퓨팅 및 모바일 인터넷, 클라우드 보안, 클라우드 컴퓨팅 산업 응용 프로그램, 항목의 초점. 특히, 회의 클라우드 컴퓨팅 서비스 표시 영역, 국제 클라우드 컴퓨팅, 쇼케이스 국내 클라우드 컴퓨팅 시범 도시 개발 성과의 최신 연구 결과 교환, 클라우드 컴퓨팅 개발 경험 공유, 글로벌 클라우드 컴퓨팅 혁신 협력을 촉진.

중국 전자 사회 클라우드 컴퓨팅 전문가 위원회 지정 회장, 과학 가슴의 중국 아카데미의 학회 회원 펭

다섯 번째에서 클라우드 컴퓨팅 컨퍼런스 세션 연설, 중국 전자 사회 클라우드 컴퓨팅 전문가 위원회 위원장, "큰 데이터 및 대용량 데이터 과학 및 기술 문제" 기조 연설, 화 진 펭의 이름으로 과학의 중국 아카데미의 학회 회원의 두 번째 날 처음 지적 했다 그것의 개념 개발 빠른. 지난 20 년 동안, 마이크로 전자공학의 개발으로 인해 컴퓨팅 및 스토리지 용량의 속도 3500 시간, CPU 성능 증가 하지만 메모리와 하드 디스크의 비용 45000 시간 시간 및 3.6 백만 번 시간으로 단축 되었습니다. 대역폭, 그리고 무어의 법칙 보다 더 감소 비용 때문에 데이터의 처리 또한 네트워크에 로컬에서 사라 했다. 최근 몇 년 동안, 뜨거운 기술, 클라우드 컴퓨팅은 의심할 여 지 없이 아주이 법칙과 일치.

다음 큰 데이터 4 V의 펭 분석으로 가슴, 그 지적 큰 데이터 데이터의 엄청난 양의 데이터의 엄청난 금액 이며 능력을 처리 하 고 분석, 데이터의 값을 마이닝 진실에서 데이터 값을 얻을 수 있다. 큰 데이터 나타납니다 우리 일부 두 번 값 데이터에 대 한 우리의 이해를 변경의 아이디어에서 우리는 동향, 예측을 얻이 필요가.

다음은 라이브 기록입니다.

나는 매우 기회를 당신과 함께 공유 하는 큰 데이터의 내 지식과 이해 뻐. 어쩌면 일부 내용 인지 너무 기술 이론, 나는 가능 한 한 간단.

클라우드를 위한 사전 요구 사항 컴퓨팅

큰 데이터 나이 시간 현재 인터넷 큰 데이터와 미래의 문제에 대 한 몇 가지 생각을 공유 하는 당신과 함께 주로 매우 활기찬 일 되고있다.

최종 사용을 수집, 저장, 계산 전송에서에서 흐름을 보고 응용 프로그램에서 정보 기술. 과거 개발 과정에서 무어의 법칙 탄생 했다, 마이크로 전자공학의 급속 한 발전에 사실, 더욱 촉진 기술 변화를 예측을 통해. 또 다른 백본 대역폭 증가 1 시간 시간 마다 6 개월, 그리고 비트 당 비용 제로 하는 경향이 됩니다 길더 법 이다.

컴퓨팅 및 스토리지, 컴퓨팅 속도 저장 용량 3500 시간 지난 20 년 동안 반도체의 성능 하지만 메모리와 하드 드라이브의 가격 45000 번 떨어졌다와 3.6 백만 시간으로 증가 하고있다. 이러한 대역폭 점점 저렴 한 때, 통신 무어의 법칙, 네트워크 컴퓨팅에 단일 컴퓨터 보다 훨씬 더 많은 온라인 시대에 오프 라인의 대역폭. 이것은 매우, 매우 큰 변화 이다.

구름을 우리에 게 무엇을 가져올 수 있는 클라우드를 사용 하는 이유

이유는 구름, 그리고 왜 그러한 큰 데이터? 때 우리 지금 통신 대역폭 개발 더 무어의 법칙을 넘어 되 고 더 낮은-비용, 인터넷에서 정보 리소스를 두 번째 값 마이닝에 인터넷의 응용 프로그램. 으로 온라인, 오프 라인 네트워크에 단일 기계 있도록 터미널의 유지 보수 및 시스템의 유지 관리는 새로운 시대를 입력 하기 시작 했다. 우리는 서비스를 알고, 그냥 우리에 필요한 자원과 서비스에 관심을 지불 하지 않아도 됩니다.

인터넷, 특히 web2.0 응용 프로그램 때문에 과거 기술의 방법에서 뿐만 아니라 단방향 통신 양방향 통신의 시대를 입력 하지만, 더 또한 인터넷의 개발 및 새로운 기능의 창조를 가속 하기 시작.

전산 패턴의 진화

과거에는, 인터넷 모드 세 가지 전형적인 시간을 통해 간 현재 네트워크 컴퓨팅 시대를 메인 프레임 시대 클라우드 컴퓨팅. 네트워크 환경의 열리고 하지 중앙 제어에 닫힌된 제어 플랫폼에서 우리는, 우리는 가상 네트워크 컴퓨팅 환경을 전화. 미래에서 광대역의 지속적인 개발의 최종 개발 반도체의 가격은 감소, 및 능력을 획득 하기 위해 리소스, 전산 모델에 있는 새로운 변화. 내 이해 하는 것은 대역폭 및 비용에 일정 변경으로 인 한 전산 패턴에 변화 이다.

는 과거에 우리는 80 's에서 첫 번째 컴퓨터 혁명을 이해 하는 경우, 그것은 PC 시대, 소프트웨어 첫 번째 필수품, 되었다 하 고 보이지 않는 필수품으로 저작권을 구입 하 여 시장에서 인기가 되기 시작 했다 때문 이었다. 90 's, 인터넷 효과적인 규모의 응용 프로그램의 정보 수집 및 정보 교환 플랫폼 됩니다. 세 번째 시간에 대 한 전례 없는 볼륨 축적 및 질적 변화의 새로운 시대에 우리 운전이 전산 모델 아니다.

모든 기술 및 제품에 대 한 시간의 창이 아니다 오래, Pc, 휴대 전화 및 인터넷 등 기술 표준 또는 추종자 들에 대 한 성숙의 특정 규모는 기회가 되지 않습니다 하거나 그것의 구경꾼에만 있을 수 있습니다.

최근 몇 년 동안 매우 뜨겁고 매우 효과적인 방법으로 많이 사용 되었습니다.

1. 먼저 클라우드 컴퓨팅, 같은 고속 인터넷 개발 과정에서 높은-엔드 컴퓨팅 및 응용 프로그램의 사용률을 향상 시키기 위해 우리를 위해 그것은 저가형 컴퓨팅 거래 및 서비스 처리 능력을 향상, 중요 한 변화가 있을 것입니다에 대 한 이야기. 아마도이 전산 모델이 우리의 이해를 깊게 추가 것입니다.

2. 두 번째 범주, 상호 작용 또는 소셜 네트워크, 소셜 네트워크의 기술 지원 또한 때문에, 많게 변화 하 고 그것은 분명, 페이 스 북, 같은 Renren, 그리고 지금은 인터넷의 규모 변화.

3. 저기 또 다른 카테고리, 우리의 생산 제어 시스템, 임베디드 시스템, 센서 전송 시스템, 우리에 게 새롭고 더 중요 한 응용 프로그램 모드의 한 종류를 많이 가져. 물론, 과학적 컴퓨팅은 항상 기초 큰 데이터 생성에 대 한입니다.

그러나 그것은 비즈니스, 산업, 또는 과학적 컴퓨팅에서 그리고 지금 우리 사회 컴퓨팅에 대 한 얘기, 우리는 새로운 문제:가 두 번의 개발 및 인터넷에 대 한 새로운 도전? 클라우드 컴퓨팅 모델로, 우리 진짜 역할을 선도 컴퓨팅, 클라우드 컴퓨팅 실제 응용 프로그램의 문제, 실제 요구의 뒤에 사람들이 큰 데이터 올라와 옵션 중 하나.

큰 데이터는 무엇 이며 그것은 우리에 게 가져다지 않습니다?

1.4 큰 데이터의 V

단순히 규모와 변화 주파수 뿐만 아니라 각도의 유형과 값 밀도에서 4V 또는 5V, 라는 명시적 기능에서 큰 데이터에 대 한 얘기를 많이 있다. 위키백과 또한 큰 데이터의 외부 정의 제공 및 데이터는 큰, 하지만 기존의 방법으로 처리 될 수 없습니다. 대용량 데이터에 대 한 쉽지 않다 그것 이라고 데이터, 더 중요 한 것은, 그것은 대표 데이터를 볼 수 변경의 과정의 품질에 수량, 어떻게 우리가 얼굴. 그것은 과거에 우리가 대량 데이터, 대규모 데이터를 큰 데이터는 규모의 크기에서 단순히 하지만 변화의 품질 일어났다, 그래서 다가가 새로운 문제. 전통적인 데이터 차원, 거 대 한 수에 다차원 간단한에서 동적으로 정적에서 이며 그 형식이 우리는 제어 방법이 없습니다.

2. 큰 데이터: 홍수 대 값

이런이 맥락에서 우리가 특정 데이터와 실제 상황을 많이 알지만 튜링 입상 소위 데이터 법 만든, 18 개월 마다 두 배가 됩니다. 이 거 대 한 양의 데이터는 우리에 게 많은 문제를 제공 하는 데이터의 전통적인 구조 처리에 다릅니다. 따라서, 데이터를 제어 하는 방법을 과도 한 데이터 홍수를 참조 또는 데이터 비즈니스 데이터 처리 처럼 쉽지 않다. 데이터 홍수 또는 우리는 새로운 방법의 찾이 필요가 실제로, 있다 많은 유형의 데이터. 일부 데이터 할 하지 처리 관계는, 그리고 많은 가치, 어떻게 우리가 볼 진짜, 귀중 한 데이터와 좋은 사용 하 여가이 종류 키 아니에요.

2010 년에 경제학자 "데이터 홍수" 또는 "데이터 홍수", 라는 제목의 항목 졌고 그것은 부족에서 풍요에 데이터 때 새로운 문제가 많이 있을 것 이라고 말했다. 데이터 경제 문제는이 항목에서 해결도 하 고 새로운 문제가 발생 했습니다, 즉, 데이터를 새로운 경제 시대를 입력 했습니다.

3. 큰 데이터 생산, 생활 및 과학 연구

과거의 연구에서 보면 데이터와 통계의 관계의 발견에서 새로운 값을 데이터의 특성. 따라서, 정보의 개발 많은 인공 데이터, 부자연 스러운 데이터를 만들었습니다. 특히 경제와 사회, 관련 된이 데이터 중 일부 우리에 게 많은 영감을 줄 수 있습니다. 동시에 과학적 가치 연구의 많은 중요 한 내용이 있다.

큰 데이터 얼마나 큽니까? 트위터, 일본의 지진 해 일에 정보는 영향을 받는 정보 경고를 미리 전달 되었다. 지난 7 월 21 일, 베이징의 폭풍우, 9 백만 이상의 마이크로 블로그, microblog 릴리스에서 사전에 가능한 구조 계획. 사회 정보 및 정서적 조언을 반영 Diaoyu 섬에 대 한 이러한 문제를 보다 효과적으로 대처 하는 방법. 우리는 또한 Google 2008 돼지 독감 발발 하기 전에 몇 주에 겨울 독감과 독감의 확산 예측을 알고 있다.

우리는 매우 분명만 CDC 국가 CDC에서 로컬 데이터 통계에 돼지 독감의 증상을 확인 했다. 이 시간 대기, 보고, 확인에에서 2 ~ 3 주 해야 합니다. Google이이 일을 찾을 수 있습니다, 그리고 그것은 사용자의 국가, 글로벌 분석을 통해 입력 습관과 조기 경보의 행동. 사용자 쿼리에 따라 증상 및 프로그램, 뿐만 아니라 컨설팅, 직면 하 게 될 수 있는 사회 문제를 탐구 하는 인터넷 온라인 정보에 근거한 다. 예를 들어, Alibaba, 같은 엄마 윤 줬 어 그가 금융 위기를 예 감 했다. 이유는 그의 전자-상거래에 실시간 거래 지불에서 크게 감소 되었습니다. 정상적인 상황을 크리스마스 전에, 구매 계획 한다 청구 됩니다 6 개월 이다. 그러나, 3 월 안, 6 월, 9 월은 여전히 우리의 작은 대 한 거절 및 중소 기업, 제조 업계에는 새로운 문제가 생겨났다 때까지. 또한 바이, 400 백만 사용자가 제공 하는 맞춤된 검색 분석 하 있다.

우리는 또한 그 사람이 나 특정 주식에 미치는 영향의 분위기 같은 새 값을 만드는 microblogs 및 소셜 네트워크를 사용 하 여 서쪽에 헤 지 펀드 확인할 수 있습니다 여부는 비즈니스의 분석에 따라 주식을 살 금융 분석 수 여부는 나열 된 회사는 파산을 알고 있다. 또한, 다른 사람들이 관심을 찾을 수 있습니다 그리고 우리는 전통적으로 아기 기저귀, 우유 가루와 담배 구성의 방법으로 몇 가지 예를 했다. 또한 해당 전략은 분유와 담배 분리 거리는. 한 가지 방법은 훔쳐, 다른 방법은 되도록 더 많은 시간, 쇼핑몰에 있어 소비를 자극. 이 심판과 분석의 실제 동작의 통계 법칙을 기반으로 합니다.

4. 대용량 데이터의 실제 값

사실, 데이터의 경제와 사회 개발의 가치는 우리가 어떻게 분류 하 고 분석 하 고 효과적인 예측을 보여줍니다. 따라서, 대용량 데이터, 있고, 큰, 정말 운영 데이터를 분석 하 고, 다룰 수 있는 우리의 능력을 우리의 경쟁력을 지속적으로 개선 하는 중요 한 힘을 수 있습니다.

이 점에서, 미래의 투자 및 개발, 사실, 작년에 큰 데이터 값, 가트너의 예측, 그는 클라우드 컴퓨팅 및 대형 데이터의 미래에 중요 한 기회를 있을 것입니다 믿고 있다. 물론, 컨설팅 예측은 항상 위험. 그의 관점에서 2016 년에 전역 데이터의 개발에 큰 기회의 새로운 라운드 있을 것입니다. 마찬가지로, 그는 현재 큰 데이터 투자 분야에서 또 다른 분석을 실시, 30% 및 부문, 교육, 교통, 의료, 등, 나열의 미래 투자 분야는 현재 제공이 지역에서 수 있습니다, 그리고 및 이미 행동에 종사.

5. 대용량 데이터의 사고 방식과 사회적 패턴에 변화에 대 한 제공

과거에서 우리 모두는 인터넷 우리가 의사 소통, 젊은 더의 통신 습관에 적응, 보낼 이메일, 마이크로 블로그, 마이크로-편지 토론 방식으로 변경 되었습니다 알아. 큰 데이터는 우리의 경제 생활을 바꿀 것인가? 이전 몇 가지 예를 언급 했다. 그것은 또한 그 Baidu와 Google 하도록 할 수 있습니다 우리가 사용자의 브라우징 동작에 잘 알고 있다. Taobao와 아마존, 우리는 사용자의 쇼핑 습관을 이해할 수 있다. Weibo의 콘텐츠, 생각 습관과 무대 사회의 이해 다른 반사가 있을 것 이다. 이것은 우리의 삶을 변화의 한 측면 이다.

또 다른 관점에서 그것은 가능한 큰 데이터 과학 연구를 우려 하는 방식을 바꿀 것입니다? 대학인 리 어제 아주 좋은 보고를 했다. 과거, 이론적 연구, 실험 검증 플러스 시뮬레이션 또는 계산 모델의 3 개의 종류가 있다. 그것은 지금 인지 과거에서 데이터 사용량이 많은 과학적 발견을 제안 시작 합니다. 큰 데이터 수 과학적인 연구의 분야에서 인간의 과학의 새로운 또는 새로운 방법? 이 방법으로 미래 개발에 사용할 수 있습니다, 우리의 사고 방식을 변경할 수 있습니다:

첫째, 사람들이 외부 데이터의 4V 특성 때문에 우리는 변화에 많은 양의 정보 등 대규모 데이터 처리의 방법과 연구 방법의 개념을 이해 합니다. 균일성 필요 하기 때문에 과거에 통계 특성의 방법을 완전히 적용 되지 않습니다. 요리, 같은 우리 게 쉬운 성숙, 성숙의 우선 순위 순서 대로 쉽지 않다. 냄비 균등 하 게, 접시는 빨리 익은 생각 하면 열을 하는 경우 맛을 사용할 수 있습니다, 방법의 맛은 샘플링의 개념, 익은, 그리고 테이블에 그것을 예상. 매우 강한 있으면 않는 한 경험, 약된 3 또는 5 분 색상 면에서 재판 될 수 있다. 우리의 가정은 샘플링은 중요 하 고 모든 것은 균질입니다.

두 번째는 과거에서 정확 하 게 정확 하지, 운동 화 한 켤레를 구입 하려는 경우, 당신은 베이징의 신발 매장 전체 실행 되지 않을 수. 다른 말로 하면, 우리는 정확 하 게 계산 필요, 가격, 스타일, 과거의 모든 측면 결정을 만들 수 있습니다. 그것은 목표와 동향에 대 한 결론을 기반으로 합니다.

세 번째 관계를 인과 관계에서 이다. 그들은 Google이 방금 언급 한, 독감의 인식 되었을 하지만 그들은 동향 및 가능한 관련성을 설립 했습니다. 유명한 의사 처럼 환자의 솔루션을 지원 하기 위해 약전 수식을 볼 수 있는 방법입니다. 그러나 많은 그의 경험에 기반 하 고 왜 그 같은 증상 적용 완벽 하 게 알지 못할 수도 있습니다.

이러한 상황에서 대규모 데이터 처리의 생각 패턴을 변경 될 수 있습니다, 그리고 우리 변화 연구를 끌 것인가? 대용량 데이터를 처리 하는 방법 중요 한 문제가 된다. 따라서, 위의 토론에서 개인적으로 기분이 명시적 큰 데이터 4V 기능 영향 될 계산된 모드 변경 해야 할 수 있습니다?

나는 4V ~ 3I 데이터에서 근사, 그것 이라고 생각 한다. 근사는 전통적인 정확한 처리는 더 이상 해당 솔루션의 일정 범위 내에서 대략적인 솔루션의 추구에 대 한 허용. 앞서 언급 했 듯이, 신발 한 켤레를 구입 하면, 당신은 하지 신발 매장에 베이징, 하지만 특정 목표의 이해 및 판단의 추세에 따라 각 지 갈 것 이다. 증분. 데이터는 모든 데이터는 완전히 다시 계산 닫힌된 가정으로 전통적으로 동적 변경의 꾸준한. 따라서, 증분 계산 큰 데이터의 동적 변형 특성에 필요 합니다. 같은 시간에 대학인 리 어제 언급 한 과거의 계산 문제 A는 주어진 시스템 감소 방법 이다는 a 1까지에. 솔루션을 나타내는 효과적인 솔루션, A1. 이제 완전히 변경 됩니다, 문제 단위 데이터는 충분 하지 않습니다 때문에 편차 처리에 대 한 필요. 둘째, 문제를 다루는 방법은 접근 하는 것을 유도, 이후 대부분의 암시적 관계는 중요. Weibo, 오디오 사용 하, 처럼 비디오, 또한 유용한 텍스트, 같은 식의 방법은 다른, 다른 지역, 심지어 전혀 관계가 없는 지역에 걸쳐. 따라서, 어떻게 효과적으로 유도 하는 중요 한 문제 이기도 합니다.

큰 데이터를 큰 데이터 계산에서 우리는 외부 4V 데이터 표현 기능 3I 컴퓨팅 속성을 이해 하, 이것은이 문제에 대 한 기본적인 이해 나.

알고리즘에 대 한 큰 데이터

큰 데이터를 첫 번째의 관점에서 계산의 연구 무엇입니까? 우리 모두가 그 컴퓨팅 알고 있기 때문에 컴퓨터 과학의 본질이 이다. 항상 수식 G를 해결 하는 것입니다 우리가 실제로 컴퓨터에 무엇을 할 f (X)를 =. F은 알고리즘 또는 소프트웨어 프로그램, x는 입력 및 데이터, G는 주어진 입력, 프로그램 해당 결과 처리. 지난 50 년 동안에서 상황 하고있다? 알고리즘에 따라 되었습니다. 간단한 알고리즘 연구의 70 세대입니다. 70 's에 의해 여러 시간 알고리즘 발견 되었습니다, 그래서 모든 계산 문제를 해결할 수 없습니다. 그것 가속 하기 때문에 임의의 알고리즘은 80 's에 의해 발견 되었다. 하는 90의 소위 근사 알고리즘 때문에 최적의 솔루션을 찾을 수 없습니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.