중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
검색 엔진 웹 페이지의 거 대 한 금액에 직면, 그들은 평행 하지 않은 아무리 검색 엔진 데이터베이스 확장, 어떻게 수 없기 때문에 웹 페이지의 성장 속도 유지 하기 위해 모든 페이지를 크롤 링, 검색 엔진은 처음 페이지를 크롤 링 가장 중요 한, 한편 한편 일반 사용자에 게 데이터베이스를 하기 그들은 결과의 엄청난 금액을 필요 하지 않습니다, 그리고 그들은 단지 가장 중요 한 결과 해야 합니다. 그래서 좋은 컬렉션 전략 시간의 짧은 금액에서 가장 중요 한 페이지를 크롤 링 수 있도록 중요 한 페이지의 컬렉션을 우선 순위 것입니다.
어떻게 검색 엔진은 먼저 가장 중요 한 페이지 크롤링 할?
대규모 웹 페이지 기능 분석을 통해 검색 엔진 기본 기능 처럼 그 중요 한 페이지 있지만 반드시 완전히 정확 하지, 하지만 사실 대부분의 시간 이다:
다른 1 페이지 링크 수가 더 많은 경우는 페이지의 특성에 대 한 링크 또는 페이지를 연결 하는 것이 중요 하다, 그것은 매우 중요 한 웹 페이지;
2 상위 페이지의 페이지를 더 연결 되었습니다 또는 더 중요 한 페이지 연결, 웹 페이지, 페이지 내에서 사이트입니다 하지만 홈페이지 연결 더 많은 시간, 그리고 또한이 페이지에 연결 하는 홈페이지에 그것은 또한 더;이 페이지를 설명 하는 것이 중요
3 웹 페이지의 내용은 복제 하 고 널리 전파.
4 웹 페이지의 디렉토리 깊이 작은, 쉽게 사용자가 클릭 하 여 검색. 이 "URL 디렉토리 깊이" 정의: 디렉터리 계층 구조를 도메인 이름 부분이 웹 페이지의 URL에서 제거 됩니다, 즉, URL http://www.domain.com 디렉터리 깊이 0 이며, Http://www.domain.com/cs 이면 디렉토리 깊이 1, 고 등. 설명 될 필요가 있는 무슨, URL 디렉토리 깊이 작은 페이지입니다 항상 중요 한 페이지의 디렉터리 깊이 모든 중요 하지 않은, 일부 학술 논문 페이지 URL은 매우 긴 디렉토리 깊이. 가장 중요 한 웹 페이지를 동시에 이러한 4 기능을가지고 것입니다.
수집 하는 웹사이트의 홈페이지 고 홈 페이지의 높은 가중치 값을 주고 5 우선 순위입니다. 웹 사이트의 수, 페이지 수 보다 훨씬 작습니다 그리고 중요 한 페이지 될 수 밖에 없다 홈 페이지 링크에서 과거, 그래서 작품의 컬렉션 주어져야 한다 우선 많은 홈 페이지를 얻을.
문제 발생, 검색 엔진 웹 페이지를 크롤 링을 시작, 그것은 페이지에 연결 되어 알 수 없습니다 또는 무엇은 되 고 재현, 즉, 처음에, 그 후 웹 페이지 또는 웹 링크 구조의 거의 모든 알려진만 수 첫 3 항목의 기능을 알고 하지 않습니다. 그럼 어떻게 문제를 해결 합니까? 즉, 4 및 5에서에서 찾을 수 있습니다 크롤링 시간, 기능 4만은 (페이지를 크롤 링) 하기 전에 웹 페이지의 콘텐츠 URL은 "중요 한" 기준을 충족, 그리고 웹 페이지 URL 디렉토리 깊이 계산 문자열의 처리 여부를 결정할 수 있습니다 알 필요가 없습니다 통계 결과 평균 URL 길이 미만 256 자는 쉽게 URL 디렉토리 깊이의 식별 실현 하는 보여 줍니다. 그래서 수집 전략의 결정에 대 한 기능 4와 5는 고려해 야 할 가장 중요 한 기본 요소.
그러나, 4 및 5 링크의 깊이 완전히 나타내지 않습니다 얼마나 중요 한 페이지 때문에 한계를 가진다. 그럼 어떻게이 문제를 해결 합니까? 검색 엔진 다음 방법을 사용 하 여:
1 URL 무게 세트: 결정, 깊이 얼마나 많은 디렉토리 깊이의 URL에 따라 감소, 최소의 무게의 무게는 0.
2 고정된 값을 URL 초기 무게를 설정합니다.
3 문자 "/", "?", "&" URL 값을 뺀 무게에 1 번 또는 밖으로
이제 "검색", "프록시", 또는 "게이트" 1 번, 숫자, 마이너스 값의 무게까지 0. (포함 "?",
또는 "&" URL이 매개 변수를 사용 하 여 폼, 필요 프로그램 서비스 하지 웹 페이지를 요청을 검색 엔진 시스템에 초점 정적 페이지, 그래서 해당 감소의 무게. "검색", "프록시", 또는 "게이트",이 페이지는 매우 검색 엔진 결과 페이지, 프록시 페이지, 그래서 가중치 값을 줄이기 위해 검색할 가능성이 포함 합니다.
4는 URL에 액세스할 수 없는 정책을 선택 합니다. 작은의 무게는 반드시 의미 하지 않는다 중요 하지 않은, 그래서 그것이 필요 하기 때문에
작은 가중치 값을 사용 하지 않는 URL을 수집 하는 특정 기회를 제공 합니다. 명명 되지 않은 URL을 선택의 정책 회전, 무게 값을 임의로 선택 하는 n 번 또는 한 번에 하나씩 따라 한 번에 하나씩으로 취할 수 있습니다.
때 검색 엔진 페이지의 품질을 판단 하 여 다음 상대 순위를 줄 많은 수의 페이지, 그리고 단계, 처음 3 특성 해석, 그리고 알고리즘의 큰 숫자를 통해 페이지에 크롤링합니다.
원래 51 로터스 잎 차 http://www.51heyecha.com/Webmaster에 의해이 문서 제공