꾸준히 진행에서 예측 바이 빅 데이터의 월드컵 예측의 높은 정확도 "황금 시대"의 박스 오피스 예측 안에 여전히 작은 장애물 발생 및 미디어 긴 보고서 예측된 편차의 실제 결과 발생 업계의 높은 관심, 저자 관찰 되었습니다 비즈니스를 예측 하는 큰 데이터, 바이 예측 "황금 시대" 구 토를 하지 손실에 대해 몇 가지 의견을 확인 하 고 있습니다.
먼저, 데이터를 보고는 큰 예측 침착 하 고 객관적인 부정확
최근 몇 년 동안, 기간 "빅 데이터" 자주 다양 한 미디어, 그리고 다양 한 산업에서 나타나고 제품 큰 관련된 데이터 호황을 누리고 있습니다. 이 2 월, "큰 데이터 산업 클러스터 산업 변화 촉진의 재배와 플레이의 업그레이드 속도" 중관촌 관리 위원회 회의 2016, 중관촌 큰 데이터 기반 산업 1 조 위안, 중관촌 큰 데이터 업계, "돈 장면" 미래에 세계, 큰 데이터를 보고 그냥 수 있을 것입니다 매우 인상적. 큰 데이터의 개념 미 쳤 어 비록 다양 한 제품에 큰 관련된 데이터는 탐사의 초기 단계에 아직도 예를 들어 큰 데이터를 예측, 비록 월드컵 예측, 골든위크 여행 예측 및 다른 제품 전에 예측 바이 보여 상대적으로 높은 정확도, 하지만 "예측" 자체, 부정합의 현상이 실제로 매우 정상의 사용.
황금 시대의 흥행 예측의 경우 바이 공식 설명 살펴 보자. 미디어에 대 한 바이 두의 응답 "엔지니어 실수", 졸 하지 않았다 하지만 직접 지적 하는 핵심 이유: 중국에서 영화 시장, 문학 및 예술 영화 박스 오피스 데이터의 역사는 매우 작습니다, 있기 때문에 그래서 "황금 시대" 사용의 예측에 혼자 문학 영화 그리고 일반 모델의 모델링, 최종 결과 편차 결과.
샤 홍콩, 중국의, 문학 및이 라벨의 예술, "황금 시대"는 상대적으로 작은 영화, 관객을 직면 하 고는 주류 군중. 같은 영화에 있는 모든 데이터는 극소수, 그리고 참조에 사용할 수 없는 예측 모델의 해당 유형의 영화는. 보편적인 영화의 모델을 채택 하는 황금 시대, 바이 예측, 큰 편차, 정확 하 게 예측 하려는 경우 가장 좋은 해결책은 확실히 영화 혼자, 모델링의 종류에 대 한 박스 오피스 예측의 beta 단계에 아직도 이해 미래를 리드 개선의이 지역에 왔다.
바이 예보 플랫폼 (trends.baidu.com), 바이 박스 오피스 예측 아이콘은 회색, 그리고 공식적으로 선, 반대, 경제 지표, 질환, 관광 명소 및 토너먼트의 예측 되었습니다 완전히 온라인 사용에 투입을 찾습니다. 바이 박스 오피스 예측 모델 개선 될 필요가, 더 많은 매개 변수 가입 모델 영화 속성, 영화 길이, 행 크기, 필드 평균 운임 및 다른 모든 치수는 고려 합니다.
하지만 다른 관점에서 생각, 경우에 바이 공식적으로 선 "예측 오류"의 출시 후 이지만 또한 매우 정상적인, 정말 큰 데이터 예측, 크리스탈 볼을 소유 하 고 아무도 확인할 수 없습니다 어떤 것이 일어날 게 확률, 인간의 끊임없이이 하나의 확률 접근 더. 예측의 전제 불확실성의 존재를 인정 하는 것 이다. 불확실성은 다양 한 분야에서 매우 변화 한다. 박스 오피스, 주식 시장 분야에서 강한 불확실성의 존재의 인간 영향에 더 취약, 예측 보다 더 어렵습니다 날씨, 관광, 교통, 가격 등등.
"황금 시대" 패배를 예상 하기 때문에 큰 데이터를 질문을 예측, 또는 박스 오피스 예측 자체 무리 하다. 바이 두의 골든 위 크 동안 월드컵 기간 동안 상대적으로 아름 다운 전망 큰 데이터 예측의 가치를 입증 했다 하지만 티켓 예측 룸의 새로운 영역을 최적화 하기 위해 더 많은 인내심 필요 합니다. 그래서 박스 오피스 중국에 정말 효과 예측은?
둘째, 예측의 본질 속 침전 및 정류
왜 큰 데이터 하지 작동 합니까 황금 시대 박스 오피스 예측? 기사의 핵심 포인트는 다음과 같이 나열 됩니다: 1, 중국의 박스 오피스 데이터 강수량은 너무 작은; 2, 일부 인공 데이터 박스 오피스를 예측 간섭; 3, 예측 모델은 기본 단계에서 변수 누락 및 샘플 편차; 4, 극장 매니저는 신뢰할 수 있는 예측, 박스 오피스 예측 의미는, 영화 예보 회담 큰 데이터를
이러한 보기, 동의 3만 이것은 객관적인 사실, 바이에서 승인 베타 박스 오피스 예측 모델의 단계는 아직도 완벽 하 게 될 것입니다. 하지만 그 세계에는 없는 완벽 한 예측 모델, 각 필드는, 다음 두 번째 것 변수의 숫자에 의해 영향을 받을 것 이다, 일부 변수 수 고려해 사전에 일부 변수, 고려 하는 경우에 계정에 어려운 모니터, 변수 누락 및 샘플 편차는 항상 예측 문제 찾을 것입니다 당신이 숙고 하는 경우 지속적으로 변수를 업데이트, 예제를 수정 하 고 모델을 업그레이드 하 여만 수는 예측 유지 예측 사실로 충분히 가까이.
어떤 산업 큰 데이터 예측 변경 됩니까? 문서에서 저자 큰 데이터 예측의 논리 기반은 모든 파격적 변화 미리 표시 해야, 모든 것은 따라, 추적 하는 경우를 요약 한 징후와 변화 사이 법률을 발견, 예언 될 수 있다. 예측에 중요 한 두 가지 포인트: 과거 데이터 및 예측 모델에 매핑되는 경험, 변수 또는 실시간 데이터를 지도에 실시간으로 모니터링할 수 있는 "변경"에서 파생 된 규칙. 큰 데이터 예측 및 전통적인 예측의 차이에서 속 인 다: 더 적시성, 새로운 데이터 소스, 동적 예측 및 정규 의존.
박스 오피스에 부정적인 태도 데이터에 아래로 첫 번째 종 기 예측: 영화 데이터 너무 작습니다, 네트워크 데이터 좋지 않아, 그리고 문제는 더러운 데이터.
1, 촉진 너무 근거가 아니다.
그것은 중국의 오피스 데이터 너무 작은 침전 하는 객관적인 사실 수 있습니다. 하지만 기록 데이터의 엄청난 금액을 예측을 위한 이유는 법을 찾을 것입니다. 하지만 경우에 100 년 박스 오피스 데이터, 하지만 이러한 박스 오피스 데이터, "변수" 데이터의 영향과 함께 하지 사실, 광업 법 도움이 되지 않습니다.
예를 들어 여론, 유럽 보상 인덱스 및 다른 동적 변수를 소개 하 고 마지막으로 정확한 예측 가까이 달성을 동시에 고려 기록 데이터 마이닝, 팀, 선수, 장소 및 기타 정적 요인의 많은 수를 월드컵 예측 및 협조를 제 3 자 데이터 회사에서 바이입니다.
박스 오피스 예측에 대 한 경우에는 중국 80, 90 's 박스 오피스 데이터, 보다는 오히려 "예측 관련 데이터" 박스 오피스에 대 한 도움을 얻으려면 법률, 인터넷, 영화 시장 오래 되었습니다 인식할 수 있는. 어떤 데이터 박스 오피스 예측은 정말 필요 합니까? 아무도 우리에 게 대답을 말할 수 있습니다. 데이터 축적 완전히 때 10까지 기다려야 비현실적 이다 큰 데이터 예측에 대 한 이야기를 다시. 우리가 오늘 그것을 하지 않으면, 때문에 사람들이 어떤 데이터를 수집 또는 기록 모르겠어요. 그리고 누가 10와 2 시간에 차이 데이터의 축적에 있을 것 이다 밖으로 가리킬 수 있습니다?
데이터 소스 활용 대형 데이터 예측은 그것 보다 포괄적이 고 시기 적절 한 방식으로 데이터를 기록할 수 및 데이터를 사용자의 요구, 여론, 기분 변화, 과거에 수집 하지 수 또는 여행 규칙, 영화 티켓 가격, 시네마 일정 데이터 수집. 그래서 대신 "전통적인 데이터의 부족"에 대 한 걱정, 그것은 더 나은 데이터에 대 한 박스 오피스 요구, 예측 하 고 그것은 법을 어떻게 개선할 수 있는지를 생각 하?
2, 데이터와 더러운 데이터는 영원한 문제.
네트워크 데이터는 전체 인터넷 데이터 격차 문제를 직면 하는, 아무도 데이터의 전체 네트워크, 전체 네트워크를 예측 하는 데이터의 집계는 거의 불가능 한 작업을 완료 하 고이 필요 하지 않습니다. 소셜 네트워킹 데이터 예측에 대 한 중요 한 경우에, 중국의 유일한 Tencent 별로 예측-를 만들 것입니다. 모든 생에 대 한 바이 두 검색 색인 또한 의미가 한 중요 한 참조, 관심사를 대표 하기 때문에, 알리 지 전기 판매 베인의 유통 되고있다. 각 마스터 데이터의 자연 속에서 다르다 하지만 협력을 더 많은 차원 데이터를 가져오고 궁극적으로 예측의 안정성을 향상 시킬 수는 직접 가정에 데이터 장벽을 비현실적 이다.
마찬가지로, "더러운 데이터" 이며 "잡음" 전체 인터넷 영원히 현상, 전통적인 샘플링 연구 노이즈 샘플을 필연적으로 발생 하 고 방해 될 경우에. 이 문제에 응답 가능한 만큼, 예측된 결과의 오류 범위를 증가 하 고 고려 하는 잡음 모델 수정 지속적으로 소음 데이터를 필터링 하는 것입니다. 거기는 더러운 데이터 (예: 박스 오피스를 더 나은 만드는) 결과 대 한 긍정적인, 더러운 경우 데이터는 부정적인 영향을 미칠 결과 가정 이기도 합니다.
바이 두 검색 결과 데이터, 해군 검토, 물냉이 점수, 모두가 알고 있는 작업에 대 한 누군가가 배제 하지 하지만 문서 언급 한 바이 두의 상용화는 더러운 데이터 바이 쉽게, 상업 광고의 영향 및 예측에이 데이터를 제거 하는 매우 중요 하기 때문에 Google 박스 오피스의 일부 모델은 광고 클릭 데이터를 기반으로 예측 됩니다.
3, 극장 매니저 예측 하지 하지만 박스 오피스를 영향을.
극장 매니저 실제로 극장에서 영화의 흥행 결과 예측할 수 있습니다. 그들은 마스터 옵션, 그들은 직접 영향을 미칠 수 고 지역 박스 오피스 영화에 대 한 결정. 모든 극장 매니저 결국 전체 박스 오피스에 큰 영향을 미칠 것 이다. 이것은 인과 관계가 아니라 링크: 박스 오피스 예측에서 극장 매니저는 박스 오피스에도 영향을 줍니다.
우리 주식 시장 주주, 밝게 또는 체중이 기대 및 다른 작업에 따라 주가 기대에 대 한 그들의 자신의 관심사의 주주에 게 극장 매니저 일치 수 있습니다. 모든 게임은 궁극적으로 주가의 변동성을 결정합니다. 하지만 이것은 주주가 최고의 주식 전문가 예측은 아닙니다. 관광, 교통, 주택 가격 및 다른 분야에서 비슷한 상황, 개별 예측, 또는 행동, 제 예측 결과에 따라 참가자 있고 따라서 결과 영향을.
요점은 여기 함께, 참가자와 예보를 넣어 적절 한는 것 이며 참가자는 매우 중요 한 동적 변수. "황금 시대" 같은 음침한 박스 오피스의 기대를 줄이기 위해 고 행을 줄이기 위해 박스 오피스 관리자의 큰 부분 이다. 그러나, 영화와 박스 오피스 관리자 바이 미래에 예측, 한편으로, 온라인 업그레이드 모델, 다른 한편으로, 박스 오피스 관리자의 일정으로 모니터링 범위, 바이 데이터 + 패키지 스타일 박스 오피스 예측에 대 한 큰 데이터 예측의 엔지니어의 정확도 향상 시킬 수 있습니다, 그리고 그것은 가능 하다.
내가 말하고 싶은 마지막 것은 동영상의 예측 실패를 부정 하기 때문에 큰 데이터 박스 오피스 예측은 정말 미해결, 일기 예보 오늘날의 정확성과 세련미, 달성 하기 위해 지속적으로 업그레이드 되 하지만 했을 때 화가 일기 예보 간주 되지 것입니다, 하지만 모두가 알고 그것은 내 인생에 올 때 시간이 아직도 있다. 박스 오피스 예측은 단지 시작, 그리고 아마도 더 포함. 긴 안목으로 보면, 지속적인 최적화를 통해 박스 오피스 예측 제품 결국 어느 정도의 정확도 달성할 수 있는 경우 다음 전체 영화 산업 제공 합니다 투자자, 촬영 파티, 플롯 설정 및 배우와 다른 당사자의 선택에도 그들의 프로 모션 가이드 되므로 보다 정확한 데이터 참조를 제공 하기 위해 프로 모션 측면 등의 매우 중요 한 참조 값 더 정확 하 고 유리한 판단을 확인 하십시오.
저자 Weibo 인터넷 쭈 조, 마이크로-편지 Supersofter @