지난 7 월, 아마존과 시작 데이터 마이닝 및 기계 학습 초보자 고 수동에 대 한 필요 때문에 결코 전에 연결 된 작업 및 기계 학습을 예측 하는 데 필요한 무엇 문의. 나중에, Taobao, 몇 달 및 사용자 주소를 할 그들의 자신의 이니셔티브 관련 데이터 마이닝 작업을, 몇 가지 피상적인 경험 있다. 어쨌든, 조언과 토론을 환영 합니다.
또한,이 문서의 제목을 미국 드라마 "게임의 왕좌:: 노래의 얼음 및 소방" 흉내 note. 데이터의 세계에서 우리는 위대한, 강력 하 고 재미 있는 경우를 많이 본다. 하지만 왕위, 같은 데이터는 파워와 정복, 처럼 하지만 여행도로에 보드로 서 떨리는.
세 종류의 대용량 데이터 마이닝 역할
내가 아마존에서 학습 하는 기계에 일하고 있었는데, 난 아마존 데이터 재생 세 가지 역할 것으로 나타났습니다.
데이터 분석기: 데이터베이스 애 널리 스 트인 사람의이 유형은 주로 데이터를 분석 데이터를 몇 가지 규칙 및 모델에 대 한 다양 한 시나리오에 대 한 학습 데이터를 찾아야 하입니다. 또한,이 사람들은 또한 더러운 데이터 깨끗 한 세척 하는 사람들.
연구 하는 과학자: 과학자 공부. 이 역할은 주로 데이터 모델을 작성 하는 다른 요구 사항을 기반으로 합니다. 그들은 스스로 인간의 불꽃 가까이 그냥 좋아하지 않았다 큰 강타에서 셀던 단 수 종 불리. 이 사람들은 기본적으로 데이터의 과학 놀이
소프트웨어 개발자: 소프트웨어 개발 엔지니어입니다. 주요는 과학자 설립된 데이터 모델 구현, 게임 데이터 분석기에 대 한 것입니다. 이 사람들은 일반적으로 다양 한 기계 학습 알고리즘을 알으십시오.
데이터 마이닝 또는 기계 학습을 하 고 다른 회사는 또한 작업의 3 종류 또는 3 종류의 사람들, 나를 위해, 생각
가장 기술 콘텐츠는 과학자, 데이터 모델링 및 가장 의미 있는 벡터를 추출 하 고 다른 방법 선택 모두이 사람에 의해 결정 됩니다 때문입니다. 나는 내가 중국에서 그런 사람들을 찾을 수 있습니다 생각 하지 않습니다.
어려운 고 가장 피곤 하 고, 그러나 또한 가장 중요 한 데이터 분석기, 이며 그들의 삶에 가장 중요 한 3 개의 문자 (참고: 내가 가장 3 사용). 때문에, 모델에 아무리 알고리즘 썩은 데이터의 더미에 암소만 건조 수 사는 쓰레기 더미. 소위:에 쓰레기, 쓰레기! 하지만이 작품은 가장 더러운 하 고 생활, 하지만 생명 축소를 가장 쉽게 하는 것도 지 겨 워.
적어도 기술 콘텐츠는 소프트웨어 개발자입니다. 지금 국내 게임 데이터의 많은 것으로 간주 됩니다 가장 중요 한 알고리즘, 그리고 많은 기술자 기계 학습 알고리즘을 공부 하는. 잘못, 가장 중요 한 것은 맨 위의 두 사람, 하나의 데이터 분석기를 세척 하기 어렵다, 다른 데이터 모델링 과학자는 정말 이해! 그리고 같은 어떤 k-평균, 이웃, 또는 일부 다른 베이지안, 회귀, 의사 결정 트리, 임의의 숲 및 다른 그런 놀이 가장 가까운 k는 매우 성숙, 아니라 인공 지능, 명백 하 게, 기계 학습 및 데이터 마이닝에 이러한 알고리즘 그것 처럼 보인다 빠른 알고리즘 정렬 같은 소프트웨어 디자인에 작은 기술 콘텐츠를 있다. 물론, 난 알고리즘 상관 없어, 난 그냥 하 고 싶은 말이 알고리즘은 전체 과정에서 가장 중요 한를 말하고 있지 않다.
데이터의 품질
현재 인기 있는 유행어-큰 데이터는 매우 오해의 소지가 있다. 내 눈에는 데이터 하지 나뉘어집니다 크기만 좋은 소식이 나 나쁜.
데이터 처리 과정에서 기분이 가장 먼저 데이터의 품질입니다. 여기 설명 하는 몇 가지 예입니다.
하나를 경우: 데이터에 대 한 기준
아마존, 모든 상품 고유 ID, Asin-아마존 단일 전화 번호 (바코드)에서 제품의 고유성을 식별 하는 데 사용 되는 있다. 즉, 당신이 아무리 설명 제품, ASIN, 이것은 정확 하 게 동일한 상품으로.
이 방법에서는, Taobao, 달리는 아이폰에 대 한 검색 하셔야 다양 한 아이폰, 일부 라는 아이폰의 "값", "애플 아이폰" 라는 일부 라고 "스마트폰 아이폰", "아이폰 화이트/블랙" 라고... 이러한 다른 설명 같은 상품의 사용자를 유치 하기 위해 가맹점을 있습니다. 하지만 문제는 두 가지 포인트:
1 사용자 환경이 좋지 않다. 소비자를 위한 상품 중심 비즈니스 모델, 비즈니스 중심 모델 보다 훨씬 더 나은 경험.
2 당신이 읽을 수 없는 경우 (식별) 데이터 올바르게, 어떤 알고리즘 당신과 어떤 모델은 쓸모 없는 뒤에.
그래서, 데이터 재생으로 데이터 표준 설정 하지는 경우 쓸모는 무엇을 찾을 수 있습니다. 데이터 표준 첫 번째 장애물은이 일이 없이 데이터 품질의 아무것도 재생 되지 않습니다. 소위 데이터 표준, 데이터의 고유 id는 가장 기본적인 단계 중 하나, 데이터의 표준만이 더 중요 한 것은, 수학 벡터, 아니 수학 벡터, 뒷면에 데이터 추상화의 표준 발굴 하지 않을 수 있습니다.
그래서, 당신이 볼 수 있듯이, 데이터를 세척 작업을 많이 데이터 표준을 확립 하는 집계에 지저분한 데이터를 병합입니다. 이것은 절대적으로 인간의 육체 일 이다. 아무것도 보다 더:
똑똑한 사람들이 데이터 생산 전에 표준을 정의 하 고 데이터를 생성할 때 데이터 정리 작업.
데이터를 생성 하 고 쌓여 후 보통 사람들이 이것을 한다.
또한, ID를가지고 내가 아마존의 인트라넷에서 참조 정보 왜 말을 하지 않는 이상 10 년 전, 시작 된 아마존의 Asin의 말하기, 내가 생각 되지 않기 때문에 데이터 검색을 재생 하기 위해 제품 ID를 추천 하는 아마존 아마도 아마존의 비즈니스 모델은 "상품 중심." 수 있도록 설계 하기 때문에 오늘,이 ASIN 여전히 많은 문제를, ASIN 완전히 보장 상품이 동일, ASIN 아니다 동일 상품 동일, 하지만 물건의 90% 보장으로 있다. 아마존은 필사적으로 매일 ASIN 데이터를 수정 하려고 하는 많은 기업 들과 카테고리 팀의 헌신적인된 팀이 있다.
사례 2: 정확한 데이터
사용자 주소 데이터 분석에서 일 하는 다른 것입니다. 나는 사용자의 수백만의 수백에는 데이터를 보는 스릴을 기억 한다. 하지만 그때 내가 흥분 얻을 수 없습니다. 주소에 사용자 채우기 때문에이 많은 구 덩이, 매우 쉽게 할 수 되지 않습니다.
첫 번째는 false/잘못 된 주소 때문에 일부 기업 속임수 또는 사용자 테스트를 할 수. 그래서 주소는 잘못,
예, 그냥 입력 "이이 주소 존재 하지 않는", "13243234ASDFASDI" 등등. 내 프로그램에 의해이 종류의 주소를 확인할 수 있습니다.
그리고 내 프로그램에 의해 식별이 어렵다. 예를 들면: "우주도 지구 공동체" 및 등. 그러나이 종류의 주소는 사람들에 의해 인식 될 수 있다.
심지어 사람들이 인식할 수 없는,와 같은 있다: "베이징 동쪽 4 반지도로, 번호 23, Nan Ai 맨션 5 층, 객실 540,이 주소는 존재 하지 않는다."
두 번째는 실제 주소, 하지만 그래서 그것은와 같은 처리 하기 어려운 사용자 쓰기 비표준, 때문에:
약어: "지 남자 기 다 지"와 "지 앤와이 거리", "산업 및 상업 은행은 중국의"와 "ICBC"...
오타: "양 문", "통 희 강"...
거꾸로: "4 동쪽 반지도로 조 양 공원"과 "조 양 공원 (동쪽 4 반지)"...
별칭: 어떤 사람들 쓸 개발자의 커뮤니티 이름 "동쪽 Heng 국제", 그리고 일부 관리 "8 리튬 주앙 어 이스트"의 이름을...
그 보다 많은 더 많은 예제가 있습니다. 표시 되는 데이터 정확 하지 않으면, 그것은 처리의 어려움을 증가할 것 이다. 아주 좋은 비유는 데이터 재생 같은 작은 금광, 골드 콘텐츠 높은, 경우 다음, 발굴의 어려움을 파고, 효과, 낮은 경우에 골드, 다음 마이닝의 어려움을 쉽게, 효과입니다.
위의 두 경우 설명 하기 위해 준
1 데이터 크기, 대용량 데이터 및 쓰레기 큰 데이터 요소 값에만 아니다.
2 데이터 정리는 매우 중요 한 일, 이것은 좋은 작업의 인간의 육체 작품.
그래서,이 일은 최고의 데이터 생성 때 시간의 조금에 이루어집니다.
포인트의 보기는: 60%에서 데이터의 정확성, 당신은 할 것 들, 사용자가 꾸 짖 다 될 것입니다! 경우 데이터 정확도 약 80%, 사용자, 나쁘지 않아 말할 것 이다! 데이터 정확도 90% 일 경우에 사용자가 진짜 암소 B. 느낄 수 있습니까 하지만 데이터 80%에서 90%의 비용 60% ~ 80% 지불 보다 훨씬 큽니다. 대부분의 데이터 마이닝 팀은 70%에서 중단 됩니다. 때문에, 미래에, 이것은 오히려 피곤한 일 이다.
데이터에 대 한 비즈니스 시나리오
나는 얼마나 많은 데이터 마이닝 팀의 비즈니스 시나리오 및 데이터 마이닝의 중요 한 관계의 정말 인지 모르는? 우리는 모든 비즈니스를 충족 하는 데이터 마이닝 및 분석 모델을 만들 수 없습니다 알아야 합니다.
뮤직 비디오를 권장 하 고 전자 상거래의 권장된 항목에 완전히 다르다. 전기 딜러, 오래, 반환 하지 않고 물건을 구입, 내가 이런식으로, 당신을 믿을 수 있는 확률을 많이 그리고 다음, 음악 및 비디오, 당신은 단순히 생각할 수 없다 또는이 비디오를 보고이 노래를 듣고 사용자와 임의로 사용자는이 노래와이 비디오 같은 느낌 그래서 우리가 볼 수 있는 그 추천된 알고리즘은 다양 한 비즈니스 시나리오에서 구현 하기 어려운.
추천 알고리즘에 온다 때, 나 처럼, 당신은 가끔 느낌은 추천서-추천 다른 차원에 따라 알고리즘의 일종 이다. 개인적으로, 일부 비즈니스 시나리오, 권고 (안 사용자 관계와 항목)의 예를 들어 두 종류에서에서이 것을 추천 하는 힘들 것 같아요
하나는 일반적인 추천, 결과 인기 있는 것 들을 추천 하는,이 좋은, 수 있습니다 하지만 베이징 것 들, 예를 들어 알려진 사용자 수 있습니다, 레스토랑을 찾고 싶어요, 구운 오리를 항상 좋습니다, 장소에가 고 싶어요, 당신은 항상 나에 게 천안문 고궁 천 추천 (있기 때문에 대부분의 사람들이 베이징은 구운 오리를 먹고 천안문 광장, 나도 몰라, 하지만 또한 추천 하는? 또한, 일반적으로 사물의 공통점 해군에 의해 브러시 수 있습니다.
또 다른 맞춤된 추천,이 필요는 사용자의 개인 기본 설정을 분석 하는, 좋은 항상 내게 제일 좋아하는, 나쁜 아마 내 취향 내 나이 및 환경, 변할 것이 고 항상 사용자의 취향에 맞게 권장 신선한 포인트를 발견 하는 사용자가 도울 수 없어요. 예를 들어 좋아해요 매운 음식, 사천 요리와 후난 항상 좋습니다, 그리고 긴 시간의 피곤 될 것입니다.
추천은 때로는 민주당 투표, 아니라 오히려 직업적인 사용자 또는 베테랑 선수 추천; 권고는 때때로, 인기에 대 한 권장 하지 않습니다 하지만 신선 하 고 난 모 르 겠 대 한 권장 합니다. 다른 비즈니스 시나리오, 다른 제품 패턴 놀이에서 동일 하지 않을 수 있습니다. 볼 수 있습니다.
또한, 같은 의류, 휴대 전화, 책, 전자-상거래 사업 형태도 완전히 다른입니다. 나 할 수요 예측 (사용자 수요 예측)에 아마존-기록 데이터를 통해 사용자의 향후 요구 예측 했었다.
당신이 생각할 수 있는 책, 휴대 전화, 가전 하드 라인 제품 이라고 아마존에서 이러한 것 들에 대 한 "표준" (하지만 반드시), 심지어 수요의 관련 제품 특성을 예측할 수 있는 예측 더 정확 하다.
하지만 의류, 등 부드러운 선 이라는 제품 아마존 없 10 년 이상 잘 예측 하는 방법을 때문에 그런 것은 너무 많은 방해 요인에 따라 같은: 사용자의 기본 설정 시체까지 착용 컬러 스타일, 사랑 친구 안 좋아해요... 이런이 종류의 일을 변화, 더 많은 사람들이 대신 판매할 것 이다 나쁜, 그래서 간단 하 게 예측할 수 없는 좋은 구매 하지 재고/벤더 관리자 "의 복 이나 신발 브랜드의 특정 색상 예측"을 앞으로 넣어 너무 쉽습니다.
수요 예측에 대 한 사람들의 예측을 싸울이 업계에서 장기는 가장 정확한 발견 무슨 기계 학습 한 구름입니다. 기계 학습 다른 제품 및 카테고리의 수천 직면 하는 경우에 의미가 있습니다.
데이터 마이닝은 인공 지능, 그리고 그것은 너무 멀리 떨어져. 데이터 마이닝 아무것도 할 수 있다고 생각 하지, 적당 한 사업 현장 및 제품 형태, 다른 것 보다 더 중요 한 발견.
데이터 분석 결과
난 큰 데이터를 재생 하는 많은, 다양 한 통계 데이터의 성능에 다른 차원에서에서 데이터 통계는 기본적으로 하 고. 간단 하 고 가장 일반적인 통계는 웹사이트 통계 같은 것 이다. 예: PV는 얼마나 많은, UV는 얼마나 많은, 이력에는, 브라우저, 운영 체제, 지리, 검색 엔진 배포, 등, 등.
잔소리는 문장 10 이상이 있다고 생각 하지 않습니다 하루에 로그의 데이터는, 생각 하지 않아 Hadoop/mapreduce 분석 로그를 사용 하는, 이것은 데이터 마이닝, 단지 통계 작업은 하 고는 말했다. 몇 t 원시 데이터를 기본적으로 유일한 호출 로그, 심지어 데이터는, 당신만이 데이터 셀 수 없습니다 의미는 조금 의미, 데이터를 호출할 수 있습니다.
때 자신의 얼굴에 사용자가 데이터를 같이: 천 사람들이 각 5 주문, 방문자의 65%는 남자, 18-24 년 노인 30%, 고 등. 심지어 당신은 데이터 상인의 같은 종류의 40%를 이길 줄. 이러한 데이터 얼굴 상인으로 대부분의 사람들이 모른다 그들은 모두 할 수 있는. 더 많은 남성 한 웹사이트를 변경 하거나 그것을 선호 하는 젊은 이들이 더 나은 그것은? 신나게 조치.
으로 봐, 그 결과의 일부에 의해 분석 데이터의 일부 좋은 것 처럼 하지만 사실, 다음 할 일을 찾을 것입니다?
그래서, 데이터 분석의 결과 데이터를 표시에 아니다 나는 생각 하지만 더이 데이터 후 할 수 있는 무엇에 대해 걱정 해야한다? 데이터 분석 결과 보면 무엇을 해야할지 하지 않는 경우이 데이터 분석 실패 이다.
요약
정리해 보면, 여기에 데이터 마이닝 또는 기계 학습에 대 한 생각 하는 가장 중요 한 것 들 중 일부입니다.
1 데이터의 품질입니다. 데이터 표준 및 정확한 데이터 나누어집니다. 데이터에 잡음을 지배 한다 밖으로 가능한 만큼. 데이터의 품질에 대 한 인간의 육체 작업의 많은 없어서는 아니다.
2 데이터 비즈니스 시나리오입니다. 우리는 비즈니스 현장 및 제품 형태는 중요 한, 그래서 그는 좁은 비즈니스 현장은 더 개인적으로 기분이 모든 장면, 할 수 없다.
3 데이터 분석 결과, 사람들이 이해할 수 있도록 다음, 보다는 데이터와 데이터를 어떻게 해야할지 알고 있다.
데이터 마이닝에 많은 사람들이 있지만 많은 성공 사례 (많은 시도에 비해), 지금, 내가 현재 데이터 마이닝 기술 전환 기술, 치 한 단계에서 아직도 이다 생각 하는 것. 또한, 데이터 마이닝의 일부 사업, 기술 팀 기술 직원 기분 미안 하지 기술...
미안 해요, 난 단지 질문, 제안 했다, 그것은 또한 데이터 분석에 많은 기회가 있다 보여줍니다...
마지막으로, "개인 개인 정보 보호 문제는 데이터에"는 비 윤리적인 마술 처럼 될 것, 당신은 어두운 게 성공. 네, 힘과 정복, 같이 왕좌 같은 데이터는 하지만 여행도로에 보드로 서 떨리는.