사회자: 난 첫 번째 스피커, 교수 Zhujianhua 홍콩의 도시 대학에서 소개 하 게 되어 영광입니다. 미국과 홍콩에서 교사는 긴 작업 경험, 사회학의 보급에 대 한 깊은 달성 하는 것이 좋겠다. 그의 연설의 주제는 오늘 교양 교수의 눈에 큰 인물 이다. 제발.
Zhujianhua: 현재 네트워크 언어와 Zhou, 교사의 소개 주셔서 감사 합니다, 그리고 나는 교양 사람, 또는 교양의 노인. 가장 최근에, 가장 인상적인 것은 그 문학 과학 그리고 문학이 쓸모 없는 말 노벨 상 모 연의 수용 이다. 나는 문학이 아닌 Uvenko, 교양은 인문학과 사회 과학 분야에 외국에서 더 광범위 한 설명 하 고 싶습니다. 우리는 사회 과학에서 물론 실제로, 여기 우리 대부분 남성 과학 또는 공학 남자 이어야 한다. 처음에 내 연설 줘 회의에 매우 감사 드립니다. 난 조금 미안. 주최, 일부 교양 남자 또는 큰 데이터에 사회과학 연구원 일부 보기 너무 낙관 하지 않을 수 있습니다 몇 가지 예약 이러한 질문은 모든 사람의 기준에 대 한.
몇 가지 스피커 오늘 아침에는 큰에 대 한 얘기가 지금 데이터는 뜨겁다, 내가 만든 작은 통계 (사진) 왼쪽에 Google 검색어에 대용량 데이터 검색 많은. 오른쪽에 큰 데이터 Sci/ssci 저널에서에 연구 논문, 반대로, 즉 전체 사회 보다 더 큰 데이터에 대 한 열정입니다. 큰 데이터에 종이 최근 몇 달 동안, 많이 증가 하지만 일반 사용자의 관심사에 큰 데이터는 원활 하 게 증가 하 고 있다.
내가 면밀 한 과목 큰 데이터를 공부한 학자 중 했다 했다. 첫째, 정보 과학, 컴퓨터 과학, 회계 27% 이어야 한다. 공학 기술, 해당 하는 물론, 그 많은 학교에서 엔지니어링 기술은 고리로 컴퓨터 정보 과학 및 기술 이다. 이 두 부분 절반 이상에 대 한 계정. 다음에 응용 프로그램, 의료 생화학의 두 개의 큰 분야는 클래스, 다음은 기초 연구, 수학, 물리학. 두 개의 작은 팀, 아래로 하나는 비즈니스 스쿨, 다른 사회 과학 플러스 약 15% 이다. 우리가 하 고 있는 연구는 거의 15% 이다.입니다.
교양 사람, 하지만 하 고 데이터를 하기 전에 하는 작은 데이터, 비록 내가 충분히 최근 큰 데이터 전문가 위원회를 설정 하지만 또한 뜨거운 이슈의 일부 및 선택 작업의 개발 동향에 큰 데이터 연구에 큰 데이터 위원회 참가 중국 컴퓨터 학회에 참여 하도록 초대 행운 이었다. 내가 그것을 이해 해 서 최근 출시 된 8 개의 핫 이슈와 큰 데이터 연구에 10 동향 되었습니다 가장 체계적인 전망과 글로벌 규모에 식. 물론, 미국 및 유럽 기관, 다양 한 학문적 그룹 일부 매우 통찰력, 매우 흥미로운 플레이, 하지만 포괄적인 지점에서이 첫 번째 문서를 있을 수 있습니다.
비판을 많이 하고있다 그리고 큰 데이터의 개념 최근 관심의 대상이 되었습니다. 아마도 모두 본이 이야기, 그는 Sybase의 기술 사장, 그는 큰 데이터 큰 거짓말 이다. 사이 베이스가이 회사에 아마 매우 잘 알고, 데이터베이스, BI 응용 프로그램 도구 할 기업에 대 한 장기를 할 것입니다. 그들은 하고있다 데이터에서 작업을 많이 그들은 그 느낌이 말했다 되는 모든 것 들 이미 거기, 그래서 뭔가 새로운. 그래서,이 관점에서 그는 조금 과장 된 거품의 비트를 느꼈다. 정치적인 연구 하는 사람들 일부 장소 다소 과장, 하지만 될 거짓 거품을 과장 하지 않습니다 완전히 동의 하지 않는다.
4 V, 돌아가기 무슨 큰 데이터입니다. 4 V 4 개의 단어의 가장 빠른 중국어로 파생 될 수 있다. 이 이론적으로 달성 되어야, 쇼는 지금 격차는, 빠른에 실제로 이미 있는. 많은, 우리는 많은 사건에 대 한 이야기, 할 데이터 분석에는 기본 개념의 쌍, 즉, 우리는 뿐만 아니라, 경우에 대 한 우려 변수에 대 한 우려를 동시에, 변수는 특성 값. 네트워크 트래픽 데이터를 할 경우, 우리는 우려에 대해는 네티즌 특성 값, 있도록 제품의 다양 한, 제품에는 또한 더 많은 깡통 있다. 2 차원 테이블의 경우에는 2의 교차 각 행, 변수가 각 열. 이러한 논의의 범위, 내 생각에 따르면 우리가 전체 샘플 사이의 선택에 대 한 걱정 해야, 결국에서 우리는 샘플 또는 전체 선택 이어야 한다.
다른 개념을 소개 하 고 싶습니다, 그리고 우리는 일반 데이터, 우리는 매우 분명, 모든 10 년 중국과 다른 많은 국가 국가 인구 조사, 2010 년에 마지막 인구 조사에 1.38 십억 발견을 설명 하는 가장 쉽습니다. 우리가 자주 사용 하는 샘플, 임의의 다른 개념 검사, 매년 인구 통계 또는 NBS 두 큰 알려진 중국 변화에 인구 증가의 인구 조사 사이 10 년 샘플 조사, 천 당 2 할에 대 한 국립 센터.
사실, 우리는 이론에서에 대해 얘기 하는 큰 데이터 내 생각에, 데이터의 몇 가지 원래 소유자를 제외한 다른 이유로 인공 이유로 기술적인 이유로 하지만 사실 많은 경우에, 전반적인 데이터를 의미 합니다. 예를 들면, Taobao 또는 Sina Weibo, 또는 국가 그리드 또는 교육 네트워크 오늘 아침, 그들은 전체 데이터의 진정한 이해를 할 수 있습니다. 타사의 대부분, 우리는 전반적으로, 많은 현지 얻지 않았다. 그것은 누락 10%, 20%, 아마도 로컬 데이터 하 고 전반적으로 큰 차이 경우에이 부분 매우 높은 비율, 70%, 80%, 있을 수 있습니다.
우리의 사회 과학을 할 정치 연구 사람들 보면, 대부분의 경우, 샘플 데이터, 그 규모는 훨씬 더 작은, 하지만 실제로 더 더 신뢰할 수 있는 로컬 데이터 보다 귀중 한. 내가 여기, 아주 작은 시뮬레이션 무작위로 10000의 경우 생산. 나는 무작위로 500 포인트 10000 포인트에서 훈제. 500 포인트 보기 스파스, 이지만 전반적인 표현에 대 한 좋은. 나 500 케이스의 샘플 고 원점에 백 포인트를 계산. 올바른 방향으로 그것의 수는 이탈 되도록 샘플 수의 또 다른 80% 인위적으로 일부 경계를 설정 합니다.
데이터 객관적인 이벤트를 설명 하는 데 사용 됩니다, 일반적으로 이벤트를 나누어 두 종류로 하나는 정상, 다른 비정상 이다. 가장 극단적인 사고는 몇 년 전, 블랙 스완, 이론적으로 존재, 사실, 거의 발생, 사회에 미치는 영향은 매우 비참 한 결과 발생 하는 경우. 만약 우리가 총, 아무 문제, 그리고 모든 이벤트 데이터에 반영 될 수 있습니다. 만약 우리가 충분히 운이 전체 데이터, Taobao, Taobao에만 예를 들어 Taobao의 전반적인 데이터는, 그것은 중국의 전자 상거래는 데이터 뿐 아니라 모든 Jingdong, 다른. 누가 내 연구 개체 중국 전자 상거래 Taobao 데이터 이며 다음 질량은 로컬 데이터를 전체 데이터가 아니라 말할 것 이다.
어쨌든, 같은 일반적인 데이터를가지고 있다면, 당신은 설명 이벤트 정상 또는 이기종, 여부에 대해 걱정 하지 않아도 일을 놓치지 마세요 그리고 결과 정확 하 고 정확한 되어야 합니다. 만약 우리가 샘플을 샘플링 메서드는 임의의 확률, 당신의 기본적인 결론의 원칙에 따라 전체에 샘플 편견된 견적, 정확, 하지만 반드시 정확 하지입니다. 샘플은 충분히 큰, 전반적인 격차 1%-3% 사이입니다. 우리가 블랙 스완 이벤트 같은 몇 가지 특이 한 이벤트를 보고 하려는 경우 샘플 번호는 종종 이러한 예외 데이터를 생략 합니다. 로컬 데이터를 경우에 전체의 80% 또는 90%도 공부 하는 일반 이벤트, 당신의 대표성 수 있을 가난한 가정. 로컬 데이터에 상관 없이 얼마나 큰, 최악의 데이터입니다. 왜? 당신이 놓치고 있어 밖으로. 때문에 모든 선택 하면 유비 쿼터 스 이며 항상 데이터의 품질에 영향을 미치는 자기 선택의 메커니즘입니다. 많은 경우에, 우리 모른다 왜 우리가 누락 되었습니다 몇 가지, 사회, 경제, 법률, 자연의 뒤에 모든 데이터의 부족 등등. 우리의 관점 데이터를 확대 하거나 또는 샘플을 할 능력, 있는 경우, 전체를 할 방법을 마스터 하는 것입니다, 그리고 당신의 오류를 예측할 수 있습니다. 로컬 데이터에 의존 하는 경우 로컬 데이터의 대량 크기 혼란, 그것은 실제로 사람을 죽이.
되었습니다 많은 경우 우리의 교육 과정의 역사에서 때마다 우리 1936 년의 대통령 선거는 미국에 대해 이야기 한다. 2012 년 선거는 그냥 끝에와 서 가장 주목할 만한 중 하나는 선거 예측의 질문. 이 예보 1932 년에 시작 하 고 지금 80 세입니다. 그 경우 두 회사 예측을 만들기와 고전, 되었습니다. 첫 번째 질문 서를 보낸 잡지와 잡지, 전국 미국 유권자 약 100 백만, 2.5 백만 때 2.5 백만 설문, 반환은 이미 상당수. 그들은 복구 하 고 발견 브랜든 BIROSFO 높은 14% 이었고, 절대 우위와 선출 되었다. 그리고 작은 연구, 폴링 센터 시작 했다, 세계에서 가장 유명한 브랜드 중 하나는 5000 명 조사, 무작위 샘플링 방법 선택, 예측된 루즈벨트, 56% 선출 되었다. 루즈벨트는 마지막으로 압도적인 표로 브랜든을 이길. 주문 잡지 잡지를 보내는 사람 좀 더 많은 지식과 더 많은 돈, 그래서 그들은 더 많은 공화당의 지원 있다. 하지만 무작위 샘플 비록 작은, 천명, 아마 % 포인트 보다 조금 더 일반으로 특정 다름이 있다, 그러나 큰 얼굴은 정확한. 유일 하 게 큰 데이터를 더 심각한 결과의 대표성에 대 한 관심을 지불 하지 않습니다 하지만.
이제 우리는 큰 데이터를 얘기 하 려 고 하 고, 이것은 우리 사회 과학자에 의해 사용의 작은 샘플입니다. 우리의 데이터 구조는 모든 경우에, 많은 변수를 더 많은 경우, 단지 n, 아마도 무한 뿐만 아니라 대용량 데이터의 이상적인 n를 있다. 아마도 내 연락처 제한 된, 큰 데이터 건수만, 변수는 많은 지금 우리가 사용 하는 실제 생활에서 나의 관측은. 아침에 다른 사람의 음성 예측은 혁명 이다 확실히 대출 하 70000 변수 사용. 우리는 수백 수천, 최대 변수만 했다 그리고 그들의 70000, 정말 놀라운 곳에서 온 말을 사용 합니다. 여러 경우, 적은 변수 데이터 구조를 직면 하는 큰 데이터 기본 환경입니다. 이유 중 하나는 모두가 소위 데이터 아일랜드, 그것의 작은 부분을 차지입니다. 다중, 우리가 얻을 수 있는 진정한 방법은 오늘 아침 큰 데이터 동맹, 같은 가변 볼륨 데이터 공유 및 통합을 통해 이다.
빠른, 실제로 효과 혜택 사이 선택이 이다. 아직도 느린 예제와 오늘날의 큰 데이터의 기본 방법 중 일부 사회 과학 남자 연구 비교를 사용 해요. 우리가 할 손 주석 처리 하 고 지금 그것은 모두 자동으로 정렬. 규모에서 비교할 수 없습니다, 우리가 일반적으로 샘플만 수천, 수백만의 작은, 이제는 조 정상. 고도의 정밀도, 인간 기계를 초과 하지 않습니다. 어떤 사람들 있다 계산, 나 또한 관찰, 기계 학습 정확도 평균 약 80%, 물론, 일부 마 자연 언어 처리, 할 인공 지능, 주장 한다 그들은 90%를 할 수 있는 특정 프로젝트. 하지만 모든 연구는 평균에 넣으면, 80% 더 낙관적인 표시 이다. 인공적인 상황에서 기본적으로 할 수 있는 90%, 95%, 95% 미만 일반 학술지 정확도 속도 허용 되지 않습니다. 문제는 어떻게 당신의 정확성 속도 알 수 있을까요? 우리의 일반적인 방식은 두 또는 동일한 콘텐츠를 가진 더 많은 사람들이 개별적으로 따로 분류 하 고 서로 연속으로 인식 하지 않습니다. 통해 그들의 자신의 이유 서로 유사성의 최종 계산.
대부분의 경우에 정확도 비율을 알 수 없습니다 그리고 지금 많은 수의 끝에서 예측을 할 온라인 이해 예측, 허용 되지 않습니다 자동은 항상 알 수 없는. 오류, 측면에서 인공 판단 오류, 하지만 이러한 오류 몇 사람이 같은 시간에 할 경우 개인적인 오류는 사실, 오류 매우 작은 수 있습니다. 기계 학습 오류는 만약 당신이 어디로, 체계적인 바이어스를 쉽게 변경할 수 있습니다 그것은, 열쇠는 오류 어디에 모른다. 이것은 내가 방금 말한, 우리가 로컬 데이터를가지고 있다면 당신은 모른다 여부 로컬 시스템 오류 인지 왼쪽, 오른쪽, 높은 또는 낮은 알 수 없습니다. 그래서, 우리가 보기에 따라 결과 정확 하 게, 하지만 정확 하지 하 고 소위 정밀도 충분히 안정 되지 키를 누릅니다. 방법은 수백만, 데이터의 엄청난 금액을가지고 있기 때문에 학습은 반대로, 계속 해 서 수천만, 아주 정확한. 사실만 정확 하 고, 잘 아니라고 하 고 큰 데이터 기존 문제가 될 것 하지 영어에서 단어의 정밀도. 그것은 자연 스러운 자동 분류로 수동 태그 결합 필요가 있다고 생각을 기계 학습 감독. 기계 학습 훈련 세트의 품질, 알고리즘, 학습 집합의 크기를 포함 하 고이 세의 중요성이이 순위에 따라 하는 것입니다.
성, 결국에서 지방의 사람들, 또는 에너지의 주입니다. 큰 데이터 사람들, 그러나 에너지 소비에 동시에 사람을 저장 확실 하다. 또한 환경 문제를 더, 말하고 싶습니다 사실, 놀랍습니다. 만약 우리가 지금 계획을 시작 하 고 관심을 지불 하지 않으면, 어쩌면 몇 년 후 큰 데이터 될 것입니다 우리의 새로운 오염 산업, 중공업 오염. 사실, 난 그냥 서버의 수백만에 대규모 데이터 센터를 설정 하는 위치에 대 한 오늘 아침을 들었어요. 에너지 소비와 생산 방사선 상상할 수 있는, 물리학을 공부 하지, 방사선은 끔찍한 것이 믿습니다. 사실, 데이터의 수에 있는 증가, 연간은 우리 보다 훨씬 더 많은 지금의 먼지 제거 용량 속도. 이 경우에, 먼지 제거 재료에 있는 돌파구를 마련 하 고, 하지 않는 한 우리 전체 데이터를 유지 하는 끝에 문제 생각 하는? 유니콤 4 개월, 또는 큰 데이터를 더 작은 있도록 샘플링에만 저장할 수 있습니다.
이 질문에 모든 질문의 핵심 이며 아무 대답은. 난 그냥 몇 가지 질문을 말하고 싶다. 첫째, 큰 데이터는 좋은, 하지만 큰 데이터는 어디에. 만약 우리가 큰 데이터를 얻을 하지 않습니다, 그것은 창에서 케이크 그리고 외부만 볼 수 있습니다. 내 생각에, 우리가 몇 가지, 작은, 중간 크기의 메가-규모에 큰 데이터를 나눌 수 있습니다. 작은, 매우 큰 수를 얻는 방법에 무료. 대부분의 경우에서 그것은 무료 또는 저렴 한 비용입니다. 진짜 큰 데이터 사실에서 불가능합니다. 그것은 적용 또는 도구로 사용 하는 경우이 문제를 고려 하는 것이 중요입니다. 이 데이터 분석 도구 사실, 우리가 지금 도구는 개발 하지, 대용량 데이터의 분석 사용 대부분의 도구는 이기종 데이터의 통계 도구에 정상적인 데이터를 해결 하기 위해 사용 되는 작은 데이터의 문제를 해결 하는 데 사용 됩니다. 자, 기본적으로, 누군가가 가우스 넣어 앞으로 100 년 이상 전에 작은 데이터 관련 관계의 나이 큰 데이터 상관 관계에 대 한 몇 가지 중요 한 아이디어에 대 한 기사를 출판 했다. 즉, 대용량 데이터 처리 능력은 아직 초기 단계, 이제 우리만 두 위안, 분석할 수 없는 여러. 70000 케이스 모델을 읽지 못 했어요, 아마도 우리는 학구적인 사람들은 더 많은 보수, 난 믿을 수 없어 그들이 할 수 있는 지금 사용은 전통적인 클래식 도구 때문에.
당신은 큰 데이터에 어떻게 생각 하십니까? 내 플레이 모두 낙관적, 모든 최악 되지 않습니다. 데이터의 존재는 확실히 새로운 세기, 시대, 데이터의 잠재적인 가치도 존재 하지만 응용 프로그램의 데이터, 데이터 공유, 사실, 많은 문제. 데이터 먼지와 데이터 분석 및 연구, 실제로 단지 시작, 응용 프로그램은 지금까지 연구에 앞서. 나는 매우 당신과 함께 감사 합니다 교환 토론 드리겠습니다!
(책임 편집기: 유산의 좋은)