불완전 한 웹 분석 데이터: 데이터와 이상적인된 방문자 이상 화

출처: 인터넷
작성자: 사용자

중간 거래 SEO 진단 Taobao 게스트 클라우드 호스트 기술 홀

I. 이상적인된 기술

데이터 컬렉션의 각 방법에는 그것의 자신의 독특한 기술 장점 하지만 사이트에 방문자의 완벽 한 컬렉션에 모든 작업을 캡처 수 없습니다, 각 기술 데이터는 완벽 한 데이터 참조 자신의 한계 원인으로 될 것입니다. 예를 들어 페이지의 유지 시간을 계산 하려면 다음 이미지는 액세스 시간 기록: (다이어그램에서 시간은 페이지를 입력 하는 순간)

  

페이지의 길이 계산 하는 일반적인 방법은 이다: 현재 페이지의 항목 시간 다음 페이지의 입력 시간 보다는 더 나쁘다. 이, 우리 알고 이전 예제에서 페이지의 나머지는 다음과 같습니다.

페이지 a: 5 분

페이지 b: 1 분

페이지 c: 4 분

D: 페이지?

왜 페이지 D 시간 체재는? 네, 어떤 컬렉션에 상관 없이 메서드는 페이지 D의 정확한 시간을 캡처할 수 있습니다, 이유는 간단, 이러한 데이터 수집 방법 수 캡처하지 시간 방문자 왼쪽 (또는 출구 페이지 클릭, 또는 직접 브라우저를 폐쇄 하지 않고 반나절 머물). 그래서 페이지의 체류 시간을 종료 하려면 다른 도구 공급 업체는 다른 정의 1 분에 대 한 일부 통합된 계산 일부 단순히 생각 0 분.

현재, 주로 여러 기술 이나 데이터의 수집에 대 한 제한 또는 기존의 복잡 한 데이터를 수집.

1. 캐싱

캐시는 CPU 캐시 등 실제 칩을 해야 하지만 웹 브라우저 캐시 또는 프록시 서버 캐시를 검색의 속도 개선 하기 위해 네트워크 리소스를 절약 하기 위해 아닙니다. 이러한 두 캐시에 대 한 간단한 이해 (를 포함 하 여 그림 및 쿠키 파일) 방문 하는 웹 페이지의 콘텐츠를 저장 하는 컴퓨터 또는 프록시 서버에입니다. 이전 읽기 하는 페이지를 호출할 때 당신은 단순히 웹 서버에서 데이터를 다시 전송 하지 않고 캐시의 내용을 가져올 수 있습니다.

다음 이미지는 파일 레코드 웹 사이트에 액세스 후 로컬 캐시 폴더에 남아:

  

때 방문자는 로컬 캐시를 통해 웹 사이트에 액세스를 웹 서버에 요청을 보내지 않습니다 때문에이 방문에 대 한 로그 레코드는 서버에 자연스럽 게 존재 하지 않는다. 즉, 웹 로그를 통해 수집 하는 데이터 트래픽의이 부분을 잃게에 바인딩됩니다.

2. 웹 크롤러

검색 엔진 크롤러 원리 및 알고리즘 나 단일 장 충분 하지 않습니다, 그리고이 책의 콘텐츠 되지 않습니다 무서 워 요를 설명 하려면, 그래서 여기는 더 이상 반복.

다음은 웹 서버 로그에 검색 엔진 크롤 러 레코드의 목록입니다.

203.208.60.178 [10/11 월/2011:12:00:00 1am] "-" "get/index.php http/1.1" 30000 "-" "mozilla/5.0 (호환; googlebot/2.1; + http://www.google.com/bot.html) "

위의에서 로그를 볼 수 있습니다: 11 월 10, 2011 12시: 00 시간, Google의 Googlebot이 (구글의 검색 엔진 크롤러 이름) 방문 하 고 home/index.php를 크롤 링.

즉, 데이터의이 부분은 웹 로그에서 수집한 데이터에 혼합. 같은 시간에 하는 크롤 러의 방문 주요 정보를 다운로드 하는 웹 서버, 웹 페이지의 콘텐츠 되지 않습니다 처럼 브라우저에서 방문한 네티즌 표시 될 수 있습니다 상기; 즉, 웹 페이지의 소스 코드에서 자바 데이터 컬렉션 코드를 실행할 수 없습니다.

3입니다. 방화벽

방화벽의 메커니즘은 더 복잡 한, 때문에 자세한 설명이, 위키백과 또는 다른 자원을 이해 하는 것에 관심이 있다.

간단한 방화벽 기능에의 이해를 생각할 수 있습니다 제어는 데이터 흐름 앞뒤로 신뢰의 수준에 따라 네트워크에 다는 것. 그것은 필터링 시도 통해 데이터 흐름을 모니터링 하는 필터 화면 처럼입니다.

  

방화벽은 네트워크에 보안을 제공 하는 데이터 컬렉션 서버에 데이터를 전송에서 자바 스크립트를 방지할 수 있습니다. 이 의심할 여 지 없이 자바 스크립트 태그를 트래픽의 일부를 잃는 원인이 됩니다.

Ii입니다. 방문자에 이상적

웹 분석 사이트에 방문자의 행동을 추적 하는 데 주로 사용 하지만, 종종 그들의 개인용 컴퓨터의 동작에 의해 영향을 받습니다. 어쩌면이 현실과 이상 사이의 격차 때문 온라인 여행 하려는 방법에 따라 모든 사용자를 요청할 수 있습니다.

1. IP 설정

웹 로그 데이터를 수집 하는 때를 고유 방문자, 방문자의 IP에 주로 의존 하지만 데이터 수집 다음 동적 IP 할당 발생 때 불가피 하다.

  

다른 IP를 사용 하 여 컴퓨터에 보다 많은 방문자를 실제 보다 계산 되 고 결과 것입니다. 사이트 분석 도구 실제로 방문자, 하지만 한 IP 또는 브라우저의 실제 수 아니다는 것을 볼 수 있습니다. 그래서 혼자 여부 같은 컴퓨터를 사용 하 여 여러 개인 올바르게 계산 될 수 있습니다.

2. 자바 스크립트 효과 설정

어떤 방문자가 보안, 있을 그들의 브라우저에서 JavaScript 설정을 해제 하도록 선택할 수 있습니다 여러 웹 효과 잃고 그리고 JavaScript 태그 도구 메이커에 대 한 대상 사이트에서 모든 작업 기록의 손실 이다.

3. 쿠키 설정

(1) 쿠키를 사용 하지 않도록 설정

인터넷의 대중화는 포괄적인 정보 사회에 사람들을 가져올 것 이다, 개인 정보 보호에 대 한 사람들의 인식을 점차 강화. 개인 정보의 감도 때문에 어떤 사람들 쿠키를 사용 하지 않으려면 선택 합니다.

  

(위의 그림 쿠키 설정을 첫 번째 파티를 쿠키로 분할 될 수 있다 및 제 3 자 쿠키 두 설정, 두 쿠키의 차이 관해서는 온라인 정보에 대 한 액세스에 관심이 볼 수 있습니다)

휴가 쿠키, 자바 스크립트 태그를 사용 하 여 방문 수를 구분 하지 않습니다 및 이러한 두 가지 기본 통계, 웹 분석 하지 않고 고유 id 방문자 별로 할 수 있습니다. 그래서, 쿠키를 해제 JavaScript 태그 컬렉션 데이터에 큰 타격 이다.

(2) 쿠키 삭제

사람들은 종종 정보 보호 이유에 대 한 쿠키를 삭제합니다.

  

정기적으로 또는 불규칙 한 쿠키 삭제는 직접 실제 번호 보다 고유 id 방문자의 큰 숫자에 결과. 때문에 같은 방문자를 반복적으로 계산 됩니다 있도록에 쿠키가 삭제 되 면 그것은 새로운 쿠키와 재건 것입니다.

(3) 멀티 브라우저

같은 웹 사이트는 브라우저에 따라 동일한 컴퓨터에서 다른 쿠키를 있을 것 이다.

  

당신이 볼 수 있듯이 위의 다이어그램에서 같은 방문자 3 다른 브라우저를 사용 하 여 사이트에 액세스 하는 경우, JavaScript 태그 쿠키의 차이 때문에 3 명 사람을 계산 합니다.

이러한 잘못 된 데이터, 얼굴 할 수 있는 우리가 오해의 분석에 의해 발생 하는 오류 데이터를 피하기 위해?

Iii. 불완전 한 데이터를 직면 하는 방법

이전 설명에서 볼 수 있듯이 다른 데이터 수집 방법 통계 결과에 직접적인 영향을 미칠 할 뿐만 아니라 많은 기술 및 인식 요인 통계 결과에 다양 한 효과 가질 수 있습니다. 이러한 "나쁜" 데이터를 얼굴에 우리가 어떻게 얻을 수 행동의 원칙에 대 한 통찰력?

살펴 봅시다는 Google Analytics의 통계 결과 통계 및 분석 시간의 특정 기간에 대 한

  

(참고: 위의 보고서는 단지에 대 한 간단한 설명 사실, 포맷 하 고 데이터는 실제 데이터가 아닙니다)

데이터의 단일 조각 없이 두 보고서의 첫 번째 엿볼 혼란 이다. 당신은 Google Analytics 또는 차원 분석 믿어야? 만약 당신이 아직이 문제에 대 한 걱정, 당신은 중지 해야 합니다. 데이터 수집 되도록 도구 이므로 백 % 정확 하 고, 제한 된 오류는 피할 수 없다. 아래, 만약 당신이 다른 관점에서에서 찾을 수 있습니다 일반적인 정보를 이러한 두 보고서:

  

  

볼 수 있는 두 가지 도구 통계는 비슷한 추세: 10 월 1 일 국가 하루 휴가 짧은 교통 침체 후 5에서 출발 점차적으로 복구 하기 시작 했다. 그것은 훨씬 더 누른 하루 수 보다이 동향의 뒤에 이유를 분석 하는 의미가 있습니다. 정확히 오른쪽 숫자를가지고 하는 경우에 의사 결정을 위한이 숫자에서 사용할 수 있는 정보를 찾을 수 없습니다 하지만 추세를 오른쪽 코스 숫자의 바다에는이 숫자는 의미 없다.

Iv. 당신이 원하는 것을 얻을 하는 방법

1입니다. 자바 스크립트 태그의 배치

JavaScript 태그 데이터 수집 원칙 결정 여부 데이터를 수집할 수 있습니다 데이터 수집 하지 당신이 원하는, 그리고 그것은 자바 스크립트 태그 코드가 올바르게 실행에 의존 합니다; 잘못 된 장소에 데이터 컬렉션 링크 된다면, 그것은 결과 분석 작업에 돌이킬 수 없는 영향을 가져올 것을 또한 의미 한다. (방문자 되지 않습니다 데이터 수집 오류에 대 한 역사적 접근 과정을 재현할 수).

자바 스크립트 태그를 적어도 주의 해야:

(1) 당신이 어떤 페이지 카운트를 놓칠 수 없습니다

자바 스크립트 태그는 다른 웹 로그 수집 데이터, 그리고 페이지를 보고이 페이지에 모든 방문자의 액션 기록 손실 됩니다.

(2) 페이지 코드의 끝에 태그를 넣어 하려고

이후 방문자 위에서 아래로 페이지 코드를 다운로드, 자바 스크립트 마크업 코드의 실행 수 있습니다 페이지의 프레 젠 테이 션을 지연 뿐만 아니라 페이지 데이터 컬렉션 서버에 오류가 발생 하면 실패를 일으킬. 그래서 신속 하 고 정상적인 페이지 표시에 영향을 하기 위하여는, 당신은 (일반적으로 이전) 페이지 코드의 끝에 태그를 넣어 하려고 한다

물론, 몇 가지 특별 한 통계 (예: 페이지 링크 클릭), 또는 머리에 태그를 배치 해야 하기 위하여 그래서 페이지에 정의할 수 있습니다 일반 전화의 태그에.

2. 고유 id는 페이지의

원칙적으로, 페이지의 URL, 로고의 동적 페이지의 응용 프로그램 때문에 다른 페이지를 구분 하는, 동일한 페이지에도 다른 매개 변수 때문일 수 있습니다 또는 일치 하지 않는 결과의 경우는 통계적으로 다른 페이지를 직접 분석 하는 문제를 가져. 다음은 같은 페이지는으로 여러 페이지를 계산 하는 보고서의 예제입니다.

  

페이지를 고유 하 게 식별 하려면 다음 작업을 수행할 수 있습니다.

(1) 기본 페이지 설정

Www.example.com과 www.example.com/index.html 사이트의 기본 페이지를 가리킨, 경우 두 개의 별도 페이지에 기본 페이지를 설정한 후 계산 되 고 피할 수 있습니다.

일반 분석 도구 기본 페이지에 대 한 인터페이스를 제공 하 고 한 세부 정보를 설정 하 여 더 많은 아무도 있다.

(2) 동일한 URL 사례

Google 웹 로그 분석와 다른 분석 도구는 페이지의 다른 Url 동일한 페이지 통계의 URL의 경우와 일치 될, 때문에 이러한 상황을 방지 하기 위해 필터 후 통계를 설정할 수 있습니다, URL 대문자 또는 소문자에 통합 될 것 이다 (일반적인 분석 도구 데이터 필터링 설정 기능을 제공 합니다).

(3) URL에 추가 매개 변수를 필터링

동적 웹 페이지의 응용 프로그램 페이지 URL 후 다른 매개 변수를 가질 수 있기 때문에 여러 다른 페이지로 다른 매개 변수와 함께 Url을 계산 하는 분석 도구를 발생 합니다. 이 통계 오류 설정을 특정 매개 변수를 필터링 하 여 피할 수 있습니다. 예를 들어 설정 제외 위의 예에서 TestID 매개 변수, the/item.php?testid=1 and/item.php?testid=2 같은 페이지로 간주 될 수 있습니다.

3. 초과 데이터 필터

(1) IP 필터링

액세스를 제거 하려면 자신 또는 테스터, 소통량의이 부분은의 트래픽은 IP를 필터링 하 여 제외할 수 있습니다.

(2) 하위 도메인 필터링

하위 도메인의 교통 상황에 대 한 우려만 때 자식 도메인 필터링 설정을 통해 소통량의이 부분을 포함할 수 있습니다.

이러한 두 가지 일반적인 필터링 설정, 그리고 종종 도구는 다양 한 다른 요구 사항에 맞게 필터링 설정 제공.

첨부: 기술 매개 변수를 웹 분석 도구 메이커에서 배울 수

1. 효과적인 액세스 시간 (일반적으로 30 분)

2. 강제로 닫는 방문의 하루의 시간 (여부는 방문의 유효 기간을 초과) 삭감 될 것 이다 강제로 오프 시간 이른 시간에서 일반적으로;

3. 방문자 쿠키의 유효 시간 결정 (반복 방문이 시간, 일반적으로 1 년 또는 2 년 동안 다시 방문자로 인식 됩니다)

4. 페이지 마지막 체재 (일반적으로: 기본값 1 분 또는 0 분; 도구 특정 컬렉션 메서드를 참조 하는 데 필요한이 데이터를 수집할 수 있습니다 하는 경우)

(저작권 GUI 린 웹사이트 분석 블로그 무단 전재, 모든, 환영 하지만 무단 전재는 소스를 지정 하시기 바랍니다.) )

원본: Http://blog.digitalforest.cn/wangzhanfenxi-shuju-buwanmei

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.