바이 여 회의 모든 청취자, 화 교장 선생님의 학문적 인 연설 모두 안개, 현기증, 모든 사람들을 sap 펭 대통령의 연설에는 가슴의 컴퓨터 학술 이론에 종사 하는 큰 데이터 현장은 절대적으로 소수, 이해할 수 있는 그 이기적인 연설에서 외계인 처럼 조금 교장 느낄 수 있습니다. 하지만 한 번 인공 지능 연구에 종사 하 고 싶 었 하지만 컴퓨터 졸업, 하지만 더 많은 보고 있는 사람으로 서 더 흥분 보인다 찾을 인공 지능의 미래 가능성에 도달할 수 있습니다 다음 변환할 교수 회의 연설 인간 또한 하려고 지금을 언어를 이해할 수 있다.
하나, 큰 데이터 이해
1, 현재 큰 데이터의 4 개의 특성: 큰 규모, 빠른 변화, 기타, 낮은 값 밀도의 종류.
사실, 그것은 왜 그것이 그렇게 어려운 건 알지만, Sina Weibo는 많은 수의 사용자가 큰 데이터를 이러한 행동 데이터를 사용 하 여 고군분투는 microblog에 생성 된 데이터는 수직 충분히 때문에, 넓은 범위를 포함, Sina Weibo에 큰 데이터를 보면 이해 하기 쉽습니다. 그리고 비즈니스와 관련 된 값은 더 파고.
2, 산업 성과
주 화 콘텐츠, 바이 두와 구글 사용자 동작을 검색에 익숙한의 세 가지를 언급 하 고 따라서 맞춤된 검색을 제공 합니다. Taobao 아마존 사용자 쇼핑 습관에 익숙한, 정확한 환경 설정 사용자를 제공할 수 있습니다. Weibo과 트위터 사용자의 생각 습관과 사회적인 인식, 이해 하 고 국가 기업에 대 한 일련의 데이터는 민심이 등을 제공할 수 있습니다.
두 번째, 실제로 생각의 변화
큰 데이터에 연구 및 실천 전략에 대 한 생각에 변화가 우리를 제공합니다.
전체 샘플을 샘플링에서 1 큰 데이터 포괄적인 통계 샘플링, 시스템 등 가장 큰 방식으로 샘플링을 할 우리를 가르쳐 전통 산업에서의 특성 층 화 샘플링, 샘플링... 할당량, 이러한 통계적 방법 될 더 큰 데이터 시대에 사라질 것을 결정 합니다. 큰 데이터 정보는 모든 데이터를, 제거 하는 통계적 방법의 산업 시대 계산을 계산 수 있습니다.
우리가 계산 하려는 모든 데이터 기술을 사용 합니다.
2에서 정확 하 게 정확 하지입니다. 사실, 이것은 또한 아주 좋은 이해, 우리 걸릴 검색의 전통 시대, 전통적인 검색 시대에, 우리는 특정 정보를 쿼리 하는 데 갈 때, 우리는 모든 데이터를 얻이 필요가 있지만 검색 엔진은 완전히 우리의 이해를 변경, 검색 엔진 제공 하는 처음 몇 항목만, 이러한 항목은 완전히 우리의 정보 요구를 충족.
검색 엔진은 실제로 하 고 있는 퍼지 알고리즘의 집합, 가져온 사용자에 게 최상의 결과 계산 하는 알고리즘의 일련 후는 프레 젠 테이 션의이 결과 또한 파괴 하는 빅 데이터 시대에는 목표의 정의의 전통적인 이해, 우리는 절대 목표를 추구 하지는 그것은 애매 하 고 부정확 한 알 수 없는 대상 거시적인 트렌드에서 추론입니다.
우리는 무한 한 근사 보다는 오히려 절대 정확성을 추구 합니다.
3, 협회 원인에서. 그리고 직접 이끌어 냈다 서쪽이 제작 했습니다 놀라운 연설-"이론은 이다 죽은",이 "죽음의 하나님", "남자의 죽음" 다음, "저자 사망 했다" "역사의 끝", "철학 사망 했다" 다른 대담한 연설 후. 뭔가 결정 해야 하는 과거의 의사 결정 권 자, 원인과 결과, 결정 하기 위해 다양 한 이론을 참조 해야 하지만 큰 데이터 나이를 쉽게 결정, 대형 슈퍼마켓 데이터 수 있습니다 당신에 게 명확한 그래프는 비가 오면 슈퍼 시티 케이크 판매할 것 이다 더 많은, 같은 이 시점에서 정책 어떤 이론을 알고 필요가 없습니다, 어떤 원인과 결과, 그냥 내일 비가 기대에 케이크를 준비 해야 합니다.
그리고 관련성에이 신뢰는 더 이상 생각은 천천히 모든 생, 인터넷 산업의 큰 데이터에 관통 소매, 관광, 금융 인과 의사 결정에 의존...
3, 큰 데이터를 큰 데이터 계산
1, 대형 데이터 확장 검색 문제를 해결 하는 방법? 데이터에 대 한 검색에서 전통적인 알고리즘은 완전히 문제, 데이터의 양이 매우 작습니다, 하지만 때 데이터를 문제에 엄청난 증가 강조 표시 됩니다, 원래 알고리즘 계산을 해서는 안, 현재 가장 빠른 하드 디스크 검색 속도 (60GPS)에 따라 하기 때문에 1PB의 선형 검색 (15의 10 TB) 데이터 요구 1.9 일, 그래서 때 데이터 대량 확장, 우리가 해야 합니다 재구성 데이터 처리를 수행 하는 알고리즘 전략. 바이 두의 현재 처리 용량은 웹 페이지 데이터를 포함 하는 작업 및 독서, 10PB 처리 하는 일은 최고의 알고리즘.
2, 큰 데이터 확장 알고리즘 및 데이터 문제를 해결 하는 방법? 위에서 언급 한 변경 하 여 데이터를 검색 하지만 데이터의 실제 처리에 목적을 달성 하기 알고리즘은 효율적인 얻을 수 아직도, 결국, 컴퓨터 CPU 작업 병목 배치, 기존 작동 조건, 최상의 결과 얻기 위해 최적의 솔루션의 디자인에에서는 기본적으로 하 고 알고리즘 엔지니어입니다.
그리고 대통령이 우리에 게는 도전, 대용량 데이터, 근사 알고리즘으로 원래 알고리즘을 대체할 뿐만 아니라 대략적인 데이터를 데이터를 변경의 확장 후, 변화 2의 조합에만 최적의 결과 도달 하는 능력을 컴퓨팅 기존 컴퓨터에 있을 수 있습니다.
그것은 또한 쉽게 했다 보다, 이러한 근사 알고리즘에 대략적인 데이터 변경 내용, 대략적인 학위의 끝에 원래 알고리즘 결과에 가장 가까운? 알다시피, 컴퓨터 세계에서 말굽, 변화의 양을 매우 작은, 수도 있지만 잘못 변경 하면, 그것은 거 대 한 오류 결과, 프로그램의 약간 이해를 하면, 사람들이 알고 코드의 몇 라인 얼마나 강한 CPU 작업, 아무리 컴퓨터를 만들 수 있고 검색 엔진은 더 큰 시행 착오 공학.
마지막으로 대통령 두 학술 프 런 티어 개발을 제시, 먼저, 이런이 종류의 쉬운 검색 문제, 그것을 분류 하는 실용적인 응용 프로그램에서 해결 하기 쉬운 문제를 정의 하 고 다른 연습에 그것을 적용. 두 번째, 큰 데이터는 그가 전에 말한 검색 데이터의 대략적인 값은 변환의 정밀 통계를 찾을 수 작은 수에서 처리 됩니다.
기존 조건에서 디자인 하 고 그들의 머리 최고의 답변을 생산할 수 있는이 단락을 쓰는 느낌을 도울 수, 사실, 알고리즘 엔지니어는 기계에는 공개 게임의 요구에 맞게 충분 한 CPU 조건, 기계 구성 조건을 유지할 수 있습니다 결코 인간의 요구와 인간의 요구를 충족 하기 위해, 알고리즘 엔지니어 랙 해야 합니다 후 대신 표준 답변에 대 한 생각. 그 생각나도 나의 집합을 작성할 수 있는 프로그램의 일부를 이해 하는 사람 어떤 체스 마스터 알고리즘을 이길 수만 체스의 게임을 끝내 체스 선수 생활 시간, 실행 하도록 할 수 있습니다 사실, 체스 마스터를 이길 어두운 파란색 컴퓨터의 CPU 속도 아이디어와 함께 유지할 수 있기 때문에. 그래서 깊은 블루 컴퓨터의 성공 인공 지능 승리 하지만 엔지니어는 최적의 알고리즘을 설계 전략을 승리 하지 않습니다.
또한, 큰 데이터 계산에서 대통령은 또한 세 가지 주요 기지, 표현, 측정 및 이해의 큰 데이터 작업에 대 한 이야기. 설명에 너무 전문 때문에 모든 단어는 기사에서 그것을 설명 하 고 반드시 취소 그래서 건너뛸 충분 하다.
4, 큰 데이터 소프트웨어 공학
사람으로 서는 읽을 때 큰 데이터 소프트웨어의 대통령 연설 거기 슬픔의 감각은 후 나 소프트웨어 공학 큰 데이터 구조 조정 됩니다 배웠습니다 예측 하기 때문에 소프트웨어 공학의 탄생, 소프트웨어의 대부분은 웹 페이지의 처럼, 큰 데이터 소프트웨어에 갈 수 있습니다. 수의 웹 소프트웨어 PC 소프트웨어 보다 훨씬 더 큰 것 그리고 스마트폰 나온다, 웹 소프트웨어, 훨씬 넘어 시작 하는 애플 리 케이 션 애플 리 케이 션의 수 소프트웨어 개발의 미래는 하드웨어 성숙 하는 때 큰 데이터의 세계를 될 것입니다. 소프트웨어 공학의 기원을 추적,이 안정 컴퓨터 하드웨어 조건에서 소프트웨어 개발 접근의 관점에서 공학 측면에서 효율성의 문제를 해결 하기 위해 분업을 선택을 취소, 취소, 및 기타 산업 생산 동일한 일정. 하지만 대통령의 다음 연설, 우리는 소프트웨어 엔지니어링 다른 모델을 이동 것입니다 볼 수 있습니다.
1, 큰 데이터 계산 지원의 문제를 해결 하는 방법? 간단한 포인트는 대형 데이터 처리는 단일 또는 몇 서버는 작은 것으로 처리 될 수 있습니다, 큰 데이터 처리 필요 거 대 한 하드웨어 지원, 하드웨어 지원은 또한 반드시 분산된 디자인, 다음 큰 데이터 처리 작업의 높은 효율에 맞게 시스템의 최상위 레벨을 디자인 하는 방법? 3I 기능 근사 (부정확 한), 증가 (증분), 및 일반화 (유도)를 만난 하는 방법는?
큰 데이터에서 분산된 하드웨어 및 소프트웨어와 함께 작동 하는 방법 확장 손실을 피하기 위해, 오류 처리 및 에너지 소산의 자제 력을 잃게 하는 방법 모두 큰 문제가 있습니다. 시스템 디자인에 도전.
2, 공공 패킷 큰 데이터 소프트웨어를 개발할 수 있습니다? 이것은 실제로 매우 미친 아이디어, 이것이 어떻게 우리 큰 데이터 소프트웨어 개발을 할 수 있는 가정, 대통령의 생각을 읽을 다음 상황은 다음과 같이 이어야 한다: 읽기 시 나 Weibo 데이터, 바이 인덱스 데이터, 바이 바 데이터, Taobao 거래 데이터에 따라 대용량 데이터 크롤링 기계... 그래서 소프트웨어 개발자가 다음 소프트웨어 모델을 개발 하기 위해 이러한 데이터의 프레 젠 테이 션에 따라 곡선의 요구 뿐 아니라 사용자의 다양 한 감정을 발견, 후에 다음 연산자 구름, 그리고 사용자는 소프트웨어에 의해 생성 된 다양 한 구름에 참여 하는 행동의 다양 한 생산 기계 소프트웨어 모델링에 대 한 이러한 사용자의 동작에 따라 계획.
이것은 고도로 정밀한 인터랙티브 데이터 마이닝 기술, 제공 된 가능한 모든 솔루션 및 저장 문제. 큰 데이터 소프트웨어의 미래는 고유의 형태 되지 않습니다 하지만 상수 데이터에 따라 자동으로 슈퍼 생태에서 변화, 홍보, 하지만 몇 가지 기능을 구현 하는 그들을 위해 그리고 홍보, 사용자의 요구는 자연스럽 게 노출 되도록 알고리즘 엔지니어에 의존 하는 제품 관리자에 의존 하지 않을 수 있습니다.
그리고 만약 우리가 지속적으로 작동 데이터 전체 인류 집단 행동의 생각 그리고 우리 중 일부는 뭔가 알고 다양 한 제품을 생산 하 고이 큰 데이터 소프트웨어 아키텍처, 최종 분석, 이러한 대용량 데이터 소프트웨어에에서 다시와 서 같은 큰 데이터 소프트웨어 구조의 높은 철학적 수준에서 봐 사실, 우리의 세계, 복원 처럼 그것은 더 하지만 빠르고 사람들 보다 더 완벽 하 게 될 것입니다.
그러한 큰 데이터-소프트웨어 구조 실현 될 다음 큰 데이터의 특정 한 정의 완전히 전복 될 것 이었고 아이디어 큰 데이터에 대 한 인간의 기반 의사 결정 도구 것 고정된 인간 정보 행동 소멸 것입니다. 큰 데이터 미래에 어떤 시점에서 정의할 수 있습니다: 인간의 세계, 그리고 우리의 욕망, 우리가 뭔가 대해 결정을 그것에 의존 하 고 우리가 직접 우리가 할, 원하는 것을 얻을 그것에 의존 하는 지금 우리의 행동 우리의 결정의 일부가 되는 일단의 지속적인 만족의 진정한 복원.
이것은 실제로 슈퍼 인공 지능 이다.
결론: 우리의 전통적인 사고 영향의이 시대에 큰 데이터의 시작 부분에서 대통령의 연설, 일부 값 만들어집니다, 하지만 다음 더 결과 형성 된, 그러나 아니다 물음표, 문제를 해결 하지, 실패, 시도 및 시도 하지 않은 몇 가지 가정을 더 표면에 약간 연설의 주제에 반대 조정 될 하지만 그것에 대해 생각 하 고 CPU의 계산 능력이 결코 이러한 최고 연구자, 원하는 높이 도달 하 고 컴퓨터 과학자 들은이 시대에서 사용할 수 있는 조건에서 할 수 있는 최선을 다 할 수 없을 것입니다 이해를 보인다. 그리고 이것은 그들은 그들의 인생에서 추구 하는 임무.
훌륭한 연설의 대통령 감사 합니다, 그리고 저희가 산발적 스파크, 매우 아름 다운 미래를 참조 하십시오.
원본 링크: Http://www.huxiu.com/article/32717/1.html?f=wangzhan