소개-
2013의 처음부터, 85 연례 아카데미 시상식 할리우드, 미국에서 개최 되었다. 식, 마이크로소프트의 뉴욕 연구소 경제학자 데이비드 전에 로스 차일 드 대용량 데이터 분석을 통해 오스카 상 수 상자. 결과 다른 모든 선수들이 최고의 감독 상을 제외한 맞 았을 보여주었다. 이것은 하지 처음으로 데이비드는 정확 하 게 예측, 2012 대통령 선거에서 그는 정확 하 게 예상 했다 50 51 선거 구민의 결과 98% 이상의 정확도로.
"빅 데이터" 시대의 도착 전 판결, 분석 및 최적화에서 다양 한 산업에 대 한 데이터를 사용 하 여 중요 한 역할을 담당해 왔습니다. 그리고 큰 데이터의 기본 값, 정말 우리가 사용 하 고, 재생 하는 방법을 기술 문제에 대 한 세계의 데이터 알고리즘 과학자 투쟁 이다.
데이터의 관계를 알아
1980 년, "제 3의 물결"에서 토플러는 예측 했다: "IBM의 메인프레임 열 정보 혁명의 큰 스크린의 경우 '빅 데이터' CLS 움직임의 제 3 물결은."
때 데이터는 10 조 바이트 ZB 순간, 대규모 데이터에서 귀중 한 관계형 정보를 필터링 하 고 모든 데이터 실무자에 대 한 도전 이다. 어떻게 큰 확인 하는 방법 뿐만 아니라 데이터를 사이의 관계를 설정할 데이터 "라이브" 유일한 방법은.
일상 생활에서 우리는 종종 찾을 그런 상황에서 구글, Baidu 검색 엔진 "염료를 어 지 럽 하지" "마스카라"와 같은 키워드의 수에 대 한 검색 하는 등, "굵게", "날씬한" 및 기타 키워드 등 검색 결과에 페이지 종종 마스카라 홍보 광고를 참조 하십시오. 이러한 검색 엔진 알고 정확 하 게 우리가 뭘 원하는 지 그리고 우리가 관심이 있는 것 같다.
그것은 마술 이다, 그것은 단지 한 알고리즘. 데이터 수집, 모델링 및 분석 후, 사용자, 검색 단어와 검색 단어 관련된 광고와 같은 데이터를 연결 하는 저자. 그래서 우리는 검색을 할, 그것 어렵다 하지 일치 하는 광고를 보고.
최근, 미국 "프리즘" 프로그램 등 했 듯이 개인 정보 및 기타 주제는 지속적으로 전세계의 관심을 자극 하고있다. 논쟁의 일련, Snowden에 의해 끌고 되어 IT 거 인으로 "빅 데이터"의 선구자 개념은 뽑아 왔다 스포트 라이트로 다시.
어떤 사람들 추천 하, 가족 이나 친구와 함께 전화에 더 많은 언급 "압력 밥 솥과 함께 폭탄을 만들기 위해 방법", 미국에서 공부도 "선의" 속 행에 "TNT 폭발물을 확인 하는 방법" 및 다른 중요 한 단어, 미국 정보 분석 기관의 작업 부하를 증가 하는 데 사용. 그러나이 방법은, 진짜로 작동 합니까?
사실, 일반 및 구조화 된 데이터의 부재에서 아무 의미가 그리고 미국에서 데이터 분석가 명확 하 게 이미이 사실을 알고. 전화 녹음, 웹 발자국만 완료 "빅 데이터" 등에서 데이터를 가져오려면 충분 하지 않습니다. 그리고 데이터 생성의 실질적인 가치만이 조각화 사람들의 진짜 id, 캐릭터, 소비 습관, 수요 및 기타 개인 정보 복원에 비해 데이터 분석, 데이터를 "라이브" 수 있습니다.
미국 데이터 분석가만의 시간을 통해 전화 통화, 통화 길이, 데이터, 숫자의 위치에 따라 전화 테러의 가능성 인지를 확인할 수 있습니다. 이것은 사용자 호출 데이터 및 테러 분석 결론 사이의 링크의 거 대 한 수의 설립의 결과 이다.
신뢰할 수 있는 데이터 모델-
데이비드 "우리가 만든 모델 아니라 일어난 과거에는, 미래를 예측할 수 있는 것 이다" 로스 차일 드는 말한다. 과학은 동일 합니다, 하지만 데이터는 가장 유용한 증명 하는 것은 매우 다릅니다. "
그리고 데이터 통계 및 네트워크 시대의 데이터는 컴퓨터에서 더 많은 수동, 컬렉션의 전통적인 방법으로 자동화 된 데이터 캡처 및 스토리지, 및 일괄 처리에 대 한 컴퓨터를 사용 하 여 가져올 후속 분석 및 사용에 대 한 데이터베이스.
예를 들어 24 시간 실시간 모니터링을 통해 거리에 트래픽을 기록 하는 카메라는도 상황, 데이터 정렬 통계 됩니다 및 후속 분석을 위해. 그리고 카메라 레코드도 상황을 통해 분명히 전통적인 교통 경찰 보초 의무 통계 더 효과적인 보다 하지만 데이터의 분석에 대 한 동시에 요구 높다.
큰 데이터의 시대에 데이터의 규모 성장 함에 따라 기 하 급수적으로, 데이터 처리 및 분석의 주인공 또한 변형 되었습니다 프로그래머와 알고리즘 엔지니어 전 통계학자와 애 널 리스트. 프로그래머와 알고리즘 엔지니어 만든 수많은 고 복잡 한 수학적 모델, 지속적으로 튜닝 및 튜닝 데이터 간의 미묘한 링크를 찾아서 각 채널에 적용.
저희가 이상 여부 프리즘 프로젝트 자체 존재 한다, 순전히 기술적인 관점에서에서 논쟁 제쳐두고, 프리즘 프로그램은 빅 데이터 시대의 개발에서 분리할 수 없습니다.
명백 하 게, 각 개인의 행동 수 있습니다, 하지만 모두 일반. 수집 및 대규모 데이터의 분석을 통해 우리 사람들의 행동 습관, 효과적인 정보를 얻을 수 있습니다 그리고 수량 금액은 충분히 큰 규모에 축적 과학자 모델링, 데이터 사이의 관계를 알아낼 하 고 각 사용자의 개별 행동 습관을 추측 분석 제공. 그리고 "프리즘" 프로젝트 컬렉션 대규모 데이터, 모델링 및 분석, 한 개인을 찾을 수와 같은 "테러리스트 공격", "숨겨진 범죄" 및 기타 이벤트 링크, 사이 고는 계획을 다루는 적절 한 방법을 통해.
LAPD 몇 십년의 범죄 기록을 분석, 예측 패턴 및 범죄 행동의 주파수 그리고 경찰 준비 후 프리즘 프로그램에서 데이터를 수집, 광고주 수 대규모 고객의 구매 동작을 분석 하 여 고객을 이해 하 고 타겟 마케팅 사업, 향상을 수행합니다 그리고 쉬운 미디어 군중 알고리즘, 라벨 광고주 사용자를 이해 하 고 데이터 분석 모델의 효율성을 향상 시킬 수 있도록, "라이브" 큰 데이터 현실 실무자.
"라이브" 큰 데이터 실천-
미국의 저널리스트 월 러 스는 한 번 말했다: "오리, 오리 처럼 수영 처럼 보이는 나무 껍질 처럼 오리, 경우 오리 수 있습니다." "
그리고 쉬운 미디어 군중 알고리즘, 라벨은 광고주 "오리"를 찾을 수 있도록
마케팅의 세계에서 맥주와 기저귀의 경우 친숙 한 되었습니다. 일반 사람들이 이해 왜 기저귀와 맥주, 두 가지 종류, 상품의 실제로 약간의 증가 둘 다에 수 수 없습니다. 그것은 어머니 종종 그들의 남편을 남편 기저귀를 구입 하 고 그의 자신의 맥주를 구입 하는 동안 직장에서 가정 그들의 방법에 그들의 아이 들을 위한 기저귀를 구매를 지시 하는 밖으로 변합니다. 발견은 많은 이익 기업, 그리고 인터넷의 광대 한을 가져왔다 하지만 비 조직적인된 데이터 "맥주와 기저귀" 사이 연결 알고리즘 태그 군중의 핵심 가치.
먼저 분할 사람의 다른 그룹 사이의 일반적인 특성 분석, 사람들 사이의 관계를 설정 하 고 후속 광고에 적용을 인터넷 사람들의 동작에 따라 알고리즘 라벨 군중.
이것은 발견 슈퍼마켓 상점 처럼: 오래 된 장 구입 맥주 2 병, 땅콩 4 가방. 하지만 슈퍼마켓에서 이해 후 오래 된 장의 마시는 습관은 의미 없다. 얼마나 많은 오래 된 장이 게 알 필요가? 어떻게 다른 음주 습관과 많은 오래 된 리? 이해 하 게 다른 고객 그룹으로 나누어 마신 맥주와 땅콩, 캐슈 너트와 드라이 화이트 와인을 마신 이전 리에서 분리 된 장. 예를 들어 100 고객의 음주에 알고 있다 땅콩과 30 맥주 오래 된 장 10 음료와 캐슈 너트 오래 된 리, 드라이 화이트 와인 그리고 20 오래 된 왕 말린된 두 부와 막걸리를 마시는 것, 이것이 충분. 이 시점에서 수 있습니다 알고, 맥주와 땅콩 드라이 화이트 와인 사이의 관계는 캐슈, 쌀 와인, 말린된 두 부는 관계, 그리고 이러한 제품 프로 모션, 고려 수 있습니다 또는 디스플레이 대 한 비슷한 위치에 배치.
라벨링 알고리즘, 쉬운 미디어 군중 "된 장", "라오어 리", "라오 왕" 섹션에 인터넷 이며, 그들의 진짜 관심사, 처리의 레이블, 레이블과 알고리즘의 협회 사이 관계의 분석을 찾을. 예를 들어 우리는 자동차 사이트에 방문 오래 된 장의 매일 문제 또한 종종 "LED TV"에 대 한 검색 따라서 "자동차"와 "LED TV" 군중 레이블, 표시 때 발견 발견 "된 장"의 수천 둘 다는 "자동차"와 "LED TV" 레이블 우리는이 두 개의 레이블 피할 수 없는 연결의 어떤 것, 이러한 "라오어 장", LED TV의 광고를 넣어을 수 발견. 그리고 맥주와 기저귀, 같은 시대, 자동차 및 LED TV의 경험에 의해서만 이전에이 두 가지로 동일 하지 않습니다, 그것은 놀라운 일이 아니다 그 그들 사이의 링크.
인터넷에 데이터의 방대한 뿐만 아니라 분류 하 고 실제 구현에서 실용적인 시스템 도구로 개발 개량 될 수 있다, 데이터 유비 쿼터 스는 사용 하 여 확장할 수 있습니다. 그리고 그렇게 큰 데이터 "살" 일반적인 집합체를 "군중 알고리즘 태그" 데이터 활력을 줄 것 이다. 라벨링 알고리즘 군중 온라인 군중 행동 데이터의 모음입니다, 그리고 추출 하 고 군중 레이블 클러스터링 및 알고리즘의 흐름의 군중 행동과 관심 동향 분석을 통해 제품 중심 관심 태그 표시.
연속, 멀티 채널, 대규모 데이터 수집 및 관리를 통해 모바일 온라인, 나노 스케일 차동에 대 한 관객에서 라인을 라인에서 쉽게 미디어 도움이 광고주 가장 가능성이 사람들이, 관리자를 찾을, 강한 관객 지원, 인구 특성의 26 종류, 행동 관심 세분의 159 작은 범주의 20 범주를 포함 하 여 제공 3 카테고리 제품 산업, 산업 제품 의도 세분, 총 관객 태그의 이상 13000 3-계층 구조의 종류의 수천의.
빅 데이터 시대에 가장 큰 혁신은 사람들이 알고리즘 과학자를 사용할 수 있습니다 및 데이터 분석가 들은 끊임없이 두뇌를 이해 하는 최적화 된 데이터 모델을 조정 하는 데이터 간의 관계를 처리할 수 없습니다, 우리의 사주는 데이터의 전체 우리의 삶에 지속적으로 안내 하 고 컴퓨터를 최적화 데이터 수집 하는.
뇌 지 각 방식의 사고와 함께 큰 데이터의 상대적인 합리의 분석을 통해 의사 결정 및 판단 교차로, 우리 보다 효율적인 솔루션 비용 효과적인 결론에 올 것 이다. 이 모든 부와 큰 데이터는 우리에 게 제공 하는 값입니다. 및이 문제에 광고 하는 인터넷에서 사용 되는 "라이브" 큰 데이터에 쉬운 미디어를 사전에 계속 노력 예비 것입니다.
(책임 편집기: 유산의 좋은)