오늘, 데이터 분석가의 90%는 큰 데이터에 대 한와 빅 데이터의 맥락에서 얘기 하는 곳은 경계 데이터 분석 데이터를 수집? 우리가 어떻게 데이터를 사용할 수 있습니까? 전 linkedinhttp://www.aliyun.com/zixun/aggregation/5913.html를 포함 하 여 사람들의 교환에서 데이터의 많은 지층 2012 회의에 참여 하는 미국에서 저자 "> 수석 과학자 DJ 파 틸 그에 게 깊은 인상을 주었다.
대화: 첫 수요, 다음 데이터
Cheping: 나는 문제가 이제 엔터프라이즈 액세스 데이터를 매우 쉽습니다, 그리고 데이터 증가 매우 빠르고, 혼란 되는 회사, 그래서 무엇 정확 하 게 데이터를 수집? 얼마나 많은 데이터 수집? 데이터 수집에 대 한 경계는 어디 있습니까?
파 틸: 과거에는, 데이터를 수집 하기 어렵다 하지만 지금 그것은 데이터를 좀 더 쉽게. 데이터 수집 시작 지점 하지 문제를 해결 하기 위해 경우에, 수집 된 데이터의 양을 너무 큽니다.
Cheping: 하지만 많은 기업 데이터를 수집 하기 어렵지 않다, 비용이 높은 되지 않습니다 먼저 데이터를 수집 하지 왜? 때 데이터를 문제를 해결 하 고 다음 그것을 꺼내 해야 합니다.
파 틸: 그래서, 디자인 하는 등 개념 데이터 제품 확실히 실패 것입니다 생각 하지 않습니다. 데이터는 국경, 그리고 난 비참 하 게 몇 일 동안 있 었 어 요. 사람의 생일을 수집, 등 수 있는 몇 초, 하지만 하지 않습니다 하지만 사용 하는 방법을 정확 하 게 알고,이 데이터는 쓸모 없는.
Cheping: 사실, 데이터는 또한 주기, 중국 ID 등 번호, 성별에서 추정 될 수 있다 하지만 몇 년 동안에서이 규칙을 변경 하는 경우 다음 데이터의 기초 변경 되었습니다, 가정 및 의미 (깨진 데이터)의 손실에 따라 결정에 따라 우리의 데이터. 그리고 그것은 데이터 및 컨텍스트 수집 하기 쉽지 않다. 그래서, 동시 데이터 수집에 데이터, 뭔지 알고 있고 우리가 그것을 오늘 생각할 수 없다.
오늘, 예를 들어 많은 전기 자영업 묻습니다 반복 구매 율은, 그래서 수집한 데이터를 반복 구매 속도 계산 하지만 드물게 반복 구매 속도를 어떻게 해야할지 결정 하는 필요의 생각. "Kezhouqiujian"의 이야기 것 들이 변화 하 고 우리는 그냥 기계적으로 메서드 또는 지표를 적용할 수 없습니다 우리에 게 알려줍니다. 반복 구매 율의 다른 정의, 마찬가지로 중복 구매 율의 다른 정의 다양 한 결정을 내릴 필요 합니다. 반복 구매 율의 관심 3 개월 세심 한 있을 수 있습니다 다음 회사는 B 회사, 사고 싶다, 사용자 비율의 구매 인지 얼마나 많은, 2를 구입 하는 사용자의 비율 ~ 3 번, 3 ~ 4 배는 사용자의 비율 이다 얼마나 많은. 회사는 그것의 자신의 작업을 측정만 하는 경우 그들은 측정할 수 있는 새로운 고객의 품질과 최고의 충성도 매달 그렇게 더 일과 주 레벨, 또는 얼마나 많은 새로운 고객이 달 사는 반복에 반복 구매 율의 추세에 대해 우려 수 있습니다.
데이터 응용 프로그램은 작고 아름 다운
데이터 응용 프로그램의이 시간 동안 내가 특히 데이터 수집에 의해 방해 되었다. 당시 나를 사용 하지만 나중에 초기 단계에서 거의 불가능 발견 대부분의 사람들에 적합 한 매우 큰 데이터 응용 프로그램을 할 싶 었 어 요. 하나는 데이터의 요구의 대부분을 해결 하는 응용 프로그램이 존재 하지 않습니다, 두 번째는 데이터의 보물을 지불 하는 매우 풍부 하 고, 고려, 요인의 관계는 매우 복잡 한 많은 요인이 있다.
데이터는 그래서 내가 결론, 데이터를 응용 프로그램으로, 원료를 원료를 변경할 때 응용 프로그램에는 문제가. 데이터와 응용 프로그램 간의 관계를 깨달은 후 나는 작은 응용 프로그램을 만들 하기로 결정 했습니다.
"작은" 여기는 목표의 응용 프로그램은 매우 특정. 예를 들어 데이터에 대 한 응용 프로그램, 내 목표는 더 나은, 두 가지 결정 사이 구별 하는 경우 여기서 차이, 매우 구체적인 문제입니다. 하지만 내 목표는 회사 수익성 수 있도록 하는 방법을 알고, 그것은 막연 한 목표.
또한 메모는 "작은" 의미 하지 않는다 데이터의 양을. 그들은 충분 한 데이터를 얻을 할와 데이터의 아무 이해도가지고 많은 사람들이 그들의 무지를 즐기고 있다.
어떤 어려움 후 데이터 응용 프로그램의 디자인에 작은 각도의 아이디어 선택, 디자인 응용 프로그램에 작은 각도 수 구체적이 고 빠른, 하지만 또한 원료에서 변경 되지 않도록 하는 문제에 의해 발생.
지금이 모델은 또한 오늘날의 인터넷의 요구에 특히 적합, 빠른 결정을 강조 하는 공군 전쟁 때문에 많은 미국 데이터 분석가 Ooda (관찰-규제-결정-작업)에 사용 되는 분석 모델에서 공군에 대 한 얘기는이 여행은 미국에는 또한 어떤 감정을, 있다. 이 모델의 핵심 아이디어 빠른 공격, 그리고 오늘날의 인터넷 기업에 대 한 개발의 속도 너무 빨리 이며 데이터 분석가 급속 한 개발 환경에 있어야 신속 하 게 솔루션을 찾기.
이 모델은 완벽 하 게 인터넷의 급속 한 오류 추구 구현, 빠른 조정 필요 합니다. 빠른 프로토 타입 데이터 문제를 해결 하기 위해 사용한 적이 없는 인터넷 기업에 대 한 더 실용적 이다. 큰 데이터, 데이터, 하지만 또한 많은 종류의 뿐만 아니라 금액의 배경. 초기 단계, 작은 관점에서 하지 어렵습니다 실용적인 제품 및 결과 볼 수 있도록.
프레임에 데이터를 넣어
큰 데이터의 컨텍스트에서 다른 주제에이 포인트 데이터 간의 관계를 고려해 야 합니다. 단일 데이터는 무의미 하 고, 실제로, 2 개의 극치에 데이터의 선택은 종종 쉽게 문제를 찾을 수 있는 프레임 워크에 넣어, 그들 사이의 링크를 찾을 수 있습니다.
예를 들어 내가 미국에서 웹사이트 학습 가치가 있다 공부 했다. 미국의 인터넷 애플 리 케이 션 다크 호스를 찾을 데이터에 의존 하는, 문제의 관점에서입니다. 다양 한 데이터에서 선택한 "트래픽"과 "유지 시간" 두 종종 의사 결정의 틀을 만들 수 있도록 방법으로이 데이터. 이 프레임 워크를 사용 하 여, 나 발견 했다 Pinterest 2010 년에 모방의 국내 응용 프로그램 보다 훨씬 이전.
그래서, 대용량 데이터의 맥락에서 데이터를 사용 하 여 결정 하는 방법에 4 단계 접근법을 정리 했습니다.
첫째, 데이터 수집 문제 해결;의 관점에서
둘째, 프레임 워크에 수집 된 데이터를 정리 하 고 결정; 의사 결정자 수 있도록 프레임 워크를 사용 하 여
셋째, 의사 결정 및 작업 등, 우리에 게 프레임 워크 인지 합리적인;의 효과 평가
4, 새로운 데이터 경우 우리 우리 앞의 세 단계에 우리가 오늘 더 많은 종류의 데이터를 수집 해야 하는지 개선 하는 데 사용할 수 있는지 여부를 살펴본다.
차 시음, Alipay 수석 비즈니스 인텔리전스 장교의 저자. 중국에 있는 홍콩 사람들이 서양 교육, 칭화 대학과 영국, 호주, 다른 장소에서 INSEAD에서에서 석사 학위를 받은 있고 Alipay 황 그물에 주요한 제품 장교로 합류 했다.
(책임 편집기: 루 광)