웹 검색 엔진 정보

출처: 인터넷
작성자: 사용자

중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀

중복 된 웹 콘텐츠는 검색 엔진에 매우 해로운. 중복 된 페이지의 존재 의미는 이러한 페이지 처리 됩니다 검색 엔진에서 한 번 이상 합니다. 무엇 보다 유해는 검색 엔진 색인 색인 라이브러리에서 두 개의 동일한 페이지를 인덱싱할 수 있습니다. 누군가가 쿼리할 때 중복 된 페이지 링크가 검색 결과에 나타납니다. 그래서 무거운 웹 페이지는 유해한 모두 검색에서 시스템 효율 검색의 품질을 경험.

웹 페이지 검색 기술 결정 여부는 파일 콘텐츠 표 절, 또 다른 하나 이상의 파일 기술을 복사 하는 복제 탐지 기술, 즉,에서 유래. (구글 지금 부사장, 엔지니어) 1993 애리조나 대학의 Manber SIF 도구를 유사한 파일에 대 한 보고를 시작 했다. 1995 스탠포드 대학의 브린 (세르게이 브린, 구글 창립자)와 가르시아-몰리 나 등 "디지털 책 보기" 프로젝트에 첫 번째 제안된 텍스트 복제 탐지 메커니즘 경찰 (복사 방지 시스템) 시스템 및 해당 알고리즘 [세르게이 브린 외 1995].이 검색 반복 기술을 검색 엔진에 적용 한 후 기본 핵심 기술과 비슷합니다.

웹 페이지는 간단한 문서, 다른 있고 웹 페이지의 특별 한 특성 태그 콘텐츠 등 서식, 그래서 내용과 형식에서 같은 유사성 비슷한 종류의 웹 페이지의 4.

1, 2 페이지 콘텐츠 형식을 정확 하 게 동일.

2, 두 페이지 콘텐츠는 동일 하지만 형식이 다릅니다.

3, 두 개의 동일한 내용 및 동일한 포맷의 일부 페이지.

4, 두 개의 페이지 부품은 동일 하지만 포맷은 다른 중요 한입니다.

구현 방법:

페이지 체크 무게, 우선, 웹 페이지 검색 중을 촉진 하기 위하여 제목 및 본문 문서로 구성 됩니다. 그래서 무거운 웹 페이지 확인 다시 "문서 확인 체중" 이라고합니다. "문서 확인 무게" 일반적으로 세 단계로 나누어

기능을 추출 합니다.

두 번째, 유사성 계산 및 평가입니다.

셋째, 무거운의 제거입니다.

1. 특징 추출

우리는 유사성 판단, 우리가 일반적으로 고정 기능을 비교할 수 있다 고 파일 검사의 첫 번째 단계는 기능 추출. 즉, 문서의 내용을 분해 되는 문서를 구성 하는 특징의 집합으로 표현 하 고이 단계 비교 최신 기능의 유사성을 계산 하는.

특징 추출은 많은 방법, 우리가 주로 두 종류의 고전 알고리즘, "-일치 알고리즘", "싱글 알고리즘입니다." "난 일치 알고리즘"은 완전 한 정보 분석에 의존 하지만 데이터 세트의 통계적 특성을 사용 하 여 문서의 주요 기능을 추출 하 고 비 주요 기능을 삭제 하. "지붕 널 알고리즘" 여러 기능 단어를 추출 하 고 문서 무게 검사를 달성 하기 위해 두 기능 집합의 유사성을 비교 하는 데 사용 됩니다.

2. 계산 및 유사성의 평가

특징 추출 후 우리 특성 대비에 수행 하기 때문에 필요 웹 페이지 검사의 두 번째 단계는 유사성 계산 및 평가.

일치 알고리즘 기능이 하나의 때 입력 한 문서를 몇 가지 주요 기능, IDF (역 텍스트 주파수 색인, 반전 문서 주파수 약어 IDF) 필터의 조건에 따라 즉, 특정 높은 자주 기사에서 낮은 주파수 단어는이 글의 성격을 반영 하지 않습니다. 그래서 높은 주파수와 낮은 주파수 단어 문서에서 제거 되 고 문서의 고유한 해시 값을 계산 (해시 단순히 매핑됩니다 데이터 값 주소). 입력 후 계산 주소 값을 얻을 수 있습니다으로 데이터의 값입니다. 문서 같은 해시 값과 중복 됩니다.

조약돌 알고리즘 처리는 더 복잡 한, 비교 방법은 싱글의 수를 정확 하 게 다양 한 기능 비교, 추출 것입니다. 일관 된 지붕 널의 수 마이너스 두 문서에서 지붕 널의 총 수로 나눈 다음이 메서드 계산 값 "Jaccard 계수", 집합의 유사성을 확인 하는 데 사용할 수 있습니다. Jaccard 계수 계산 방법의 집합의 교집합 집합으로 나눕니다.

3. 무게 분산

중복 콘텐츠의 삭제, 검색 엔진 계정에 많은 요인, 그래서 걸립니다 간단 하 고 가장 실용적인 방법이 사용 됩니다. 첫 번째 크롤러 크롤링 페이지도 원래 웹 페이지를 보존에 우선 순위가 높은 수준의 보장 합니다.

웹 페이지 검사 무거운 작업은 시스템에서 필수, 삭제 중복 페이지, 검색 엔진의 다른 링크도 줄어 많은 불필요 한 말썽의 인덱스 저장 공간을 절약, 쿼리 비용 감소, PageRank 계산의 효율성 향상. 검색 엔진 사용자를 위한 편리한입니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.