중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
중복 된 웹 콘텐츠는 검색 엔진에 매우 해로운. 중복 된 페이지의 존재 의미는 이러한 페이지 처리 됩니다 검색 엔진에서 한 번 이상 합니다. 무엇 보다 유해는 검색 엔진 색인 색인 라이브러리에서 두 개의 동일한 페이지를 인덱싱할 수 있습니다. 누군가가 쿼리할 때 중복 된 페이지 링크가 검색 결과에 나타납니다. 그래서 무거운 웹 페이지는 유해한 모두 검색에서 시스템 효율 검색의 품질을 경험.
웹 페이지 검색 기술 결정 여부는 파일 콘텐츠 표 절, 또 다른 하나 이상의 파일 기술을 복사 하는 복제 탐지 기술, 즉,에서 유래. (구글 지금 부사장, 엔지니어) 1993 애리조나 대학의 Manber SIF 도구를 유사한 파일에 대 한 보고를 시작 했다. 1995 스탠포드 대학의 브린 (세르게이 브린, 구글 창립자)와 가르시아-몰리 나 등 "디지털 책 보기" 프로젝트에 첫 번째 제안된 텍스트 복제 탐지 메커니즘 경찰 (복사 방지 시스템) 시스템 및 해당 알고리즘 [세르게이 브린 외 1995].이 검색 반복 기술을 검색 엔진에 적용 한 후 기본 핵심 기술과 비슷합니다.
웹 페이지는 간단한 문서, 다른 있고 웹 페이지의 특별 한 특성 태그 콘텐츠 등 서식, 그래서 내용과 형식에서 같은 유사성 비슷한 종류의 웹 페이지의 4.
1, 2 페이지 콘텐츠 형식을 정확 하 게 동일.
2, 두 페이지 콘텐츠는 동일 하지만 형식이 다릅니다.
3, 두 개의 동일한 내용 및 동일한 포맷의 일부 페이지.
4, 두 개의 페이지 부품은 동일 하지만 포맷은 다른 중요 한입니다.
구현 방법:
페이지 체크 무게, 우선, 웹 페이지 검색 중을 촉진 하기 위하여 제목 및 본문 문서로 구성 됩니다. 그래서 무거운 웹 페이지 확인 다시 "문서 확인 체중" 이라고합니다. "문서 확인 무게" 일반적으로 세 단계로 나누어
기능을 추출 합니다.
두 번째, 유사성 계산 및 평가입니다.
셋째, 무거운의 제거입니다.
1. 특징 추출
우리는 유사성 판단, 우리가 일반적으로 고정 기능을 비교할 수 있다 고 파일 검사의 첫 번째 단계는 기능 추출. 즉, 문서의 내용을 분해 되는 문서를 구성 하는 특징의 집합으로 표현 하 고이 단계 비교 최신 기능의 유사성을 계산 하는.
특징 추출은 많은 방법, 우리가 주로 두 종류의 고전 알고리즘, "-일치 알고리즘", "싱글 알고리즘입니다." "난 일치 알고리즘"은 완전 한 정보 분석에 의존 하지만 데이터 세트의 통계적 특성을 사용 하 여 문서의 주요 기능을 추출 하 고 비 주요 기능을 삭제 하. "지붕 널 알고리즘" 여러 기능 단어를 추출 하 고 문서 무게 검사를 달성 하기 위해 두 기능 집합의 유사성을 비교 하는 데 사용 됩니다.
2. 계산 및 유사성의 평가
특징 추출 후 우리 특성 대비에 수행 하기 때문에 필요 웹 페이지 검사의 두 번째 단계는 유사성 계산 및 평가.
일치 알고리즘 기능이 하나의 때 입력 한 문서를 몇 가지 주요 기능, IDF (역 텍스트 주파수 색인, 반전 문서 주파수 약어 IDF) 필터의 조건에 따라 즉, 특정 높은 자주 기사에서 낮은 주파수 단어는이 글의 성격을 반영 하지 않습니다. 그래서 높은 주파수와 낮은 주파수 단어 문서에서 제거 되 고 문서의 고유한 해시 값을 계산 (해시 단순히 매핑됩니다 데이터 값 주소). 입력 후 계산 주소 값을 얻을 수 있습니다으로 데이터의 값입니다. 문서 같은 해시 값과 중복 됩니다.
조약돌 알고리즘 처리는 더 복잡 한, 비교 방법은 싱글의 수를 정확 하 게 다양 한 기능 비교, 추출 것입니다. 일관 된 지붕 널의 수 마이너스 두 문서에서 지붕 널의 총 수로 나눈 다음이 메서드 계산 값 "Jaccard 계수", 집합의 유사성을 확인 하는 데 사용할 수 있습니다. Jaccard 계수 계산 방법의 집합의 교집합 집합으로 나눕니다.
3. 무게 분산
중복 콘텐츠의 삭제, 검색 엔진 계정에 많은 요인, 그래서 걸립니다 간단 하 고 가장 실용적인 방법이 사용 됩니다. 첫 번째 크롤러 크롤링 페이지도 원래 웹 페이지를 보존에 우선 순위가 높은 수준의 보장 합니다.
웹 페이지 검사 무거운 작업은 시스템에서 필수, 삭제 중복 페이지, 검색 엔진의 다른 링크도 줄어 많은 불필요 한 말썽의 인덱스 저장 공간을 절약, 쿼리 비용 감소, PageRank 계산의 효율성 향상. 검색 엔진 사용자를 위한 편리한입니다.