중간 거래 SEO 진단 Taobao 게스트 클라우드 호스트 기술 홀
검색 엔진 겉보기에 간단한 크롤링 웨어하우징 쿼리 작업, 하지만 알고리즘에 다양 한 링크는 매우 복잡 하다. 검색 엔진 크롤 링 페이지 작업 완료 스파이더 (거미)에 의존, 크롤링 작업을 달성, 하지만 어떤 페이지, 페이지를 크롤 링 하지만 필요 결정, 다음 소개 하는 알고리즘 여러 크롤링 알고리즘에 우선 순위를 크롤 링 하기 쉽습니다.
1, 폭 첫 번째 크롤링 전략:
우리 모두 알다시피, 대부분의 사이트 페이지의 배포를 완료 하려면 트리 지도 기반 다음 링크 구조의 트리 지도에서 페이지 먼저 크롤링되며? 왜 해야 당신이이 페이지를 크롤 링이 먼저? 너비 우선 탐색 전략 트리 구조 형제 링크 크롤링 완료 될 때 형제 링크를 크롤 링을 우선 하는 것입니다 다음 링크의 다음 단계로 크롤 링 합니다. 다음 그림:
당신이 볼 수 있듯이, 내가 링크 구조 대신 사용 사이트 구조 때 그것을 표현 했다. 여기 링크 구조 어떤 페이지 든 지, 반드시 내부 링크를 링크의 구성 될 수 있습니다. 이것은 이상적인된 너비 우선 탐색 전략, 실제 크롤링 과정에서 그것은 먼저,이 한글 첫 번째, 하지만 제한 된 폭을 같은 수 다음:
위의 G 링크 알고리즘을 통해 검색 우리의 거미는 G 페이지 값이 없는, 그래서 G 링크 및 하위 H 링크의 비극은 조화를 거미 발견. G 링크에 관해서는 왜은 그것 되 고 조화? 좋아, 그것을 분석 해 보겠습니다.
2, 링크 무게 계산을 완전히 통과:
각 검색 엔진은 페이지 랭크의 집합 (페이지 무게를 말합니다 구글 홍보) 계산 방법, 자주 업데이 트 하 고. 인터넷은 거의 무한 하 고, 그리고 그것은 새로운 링크의 엄청난 금액을 생성 하는 매일. 검색 엔진의 계산 링크 무게의 완전 한 통과 하실 수 있습니다. 왜 업데이트 하기 전에 3 개월 정도를 구글 홍보? 왜 바이 큰 업데이트 1 개월 1-2 두 배? 이것이 검색 엔진 링크 무게를 계산 하는 불완전 한 트래버스 연결 무게 알고리즘을 사용 하기 때문에. 사실, 현재의 기술에 따라 무게의 더 빠른 주파수를 달성 하기 위해 업데이트 어렵지 않다, 계산 속도 저장 속도 완전히, 하지만 왜 그것을 할? 때문에 필요 하지 않거나 달성 하고있다, 하지만 게시 하지 않으려면. 그래서, 완전 한 탐색 링크 무게 계산 무엇입니까?
우리 링크, pagerank, 링크의 수에 포함 된 링크를 나타내는 s에 대 한 링크 대신 R K 수의 집합을 형성할 것 이다, Q 이전에 참여할 것인지 나타냅니다, 그리고 베타 나타냅니다 댐핑 팩터, 다음 링크의 무게는 수식으로 얻은:
수식에서 결정 링크의 무게는 q 찾을 수 있습니다, 그리고 링크 부정, 발견 또는 검색 엔진 수동 제거, 또는 다른 이유로, Q는 0으로 설정 된 다음 외부 체인의 대부분은 쓸모 없다. 베타는 댐핑 팩터, 주요 역할은 무게 0 인 링크의 출현을 방지 하기 위해 참여할 수 없습니다 체중 이동, 그리고 부정 행위의 출현을 방지 하기 위해. 댐핑 팩터 β는 일반적으로 0.85. 왜 사이트 댐핑 계수를 곱한 수는? 페이지에서 모든 페이지는 체중 이동에 관련 되므로, 검색 엔진은 링크를 제거 필터링 다시 15%.
하지만 이런이 종류의 불완전 한 탐색 무게 계산 일반 업데이트 주기는 상대적으로 느리게, 그래서 다시 계산을 시작 하기 위해 링크의 특정 번호를 축적 실시간 정보 요구의 사용자를 만날 수 없습니다. 이 기초에, 실시간 가중치 할당 크롤링 전략 제시. 즉, 거미 크롤링 페이지와 입구 완료, 즉시 할당, 연결 라이브러리, 그리고 크롤 링을 높이의 무게에 따라 거미 크롤 링에 무게 재배포 무게.
3입니다. 사회 공학 전략 파악
사회 공학 전략, 거미 크롤링 프로세스, 조인 인공 지능, 또는 크롤링의 우선 순위를 결정 훈련 인공 지능 기계 지능을 통해 이다. 오늘 알고 크롤링 전략은:
뜨거운 우선 전략: 뜨거운 키워드 우선 순위 크롤 링, 그리고의 발발에 대 한 새로운 링크를 커버 하 고 사용자가 있기 때문에 엄격한 무게와 필터링을 통해 갈 필요 하지의 활성 선택.
B, 신뢰할 수 있는 우선 전략: 검색 엔진 사이트 역사, 사이트 업데이트, 사이트의 권위를 확인 하는 등을 통해 각 사이트에 권위를 할당 됩니다, 사이트를 크롤 링을 우선 순위 높은 권위 링크.
c, 사용자가 클릭 정책: 대부분 산업 동의어 키워드 검색을 할 때 자주 클릭 수 같은 웹사이트 검색 결과 다음 검색 엔진은 더 자주이 웹사이트를 크롤 링.
D, 역사적 참조 전략: 사이트 자주 업데이 트를 유지에 대 한 검색 엔진 업데이트의 금액의 미래를 예측 하 고 크롤링 주파수를 결정 하는 업데이트 역사에 기반 하는 사이트의 업데이트 된 역사를 설정 합니다.
SEO 작업에 대 한 지침:
그래서 지금에 SEO 작업 안내 역할에 이러한 원칙에서 얕은 깊이에서 검색 엔진 크롤 링 원칙 설명 하고있다:
A, 일반, 양적 업데이트 시간 크롤링 사이트 페이지;에 크롤 링 하는 거미를 드릴 것입니다
B 회사의 사이트 운영 개별 사이트의 권위 보다 더 높은;
C, 빌드 역 시간 긴 사이트 더 쉽게 크롤 링;
D, 페이지 적절 한 배포 링크 해야 합니다., 너무 많이, 너무 작은 좋다;
E, 인기 있는 웹 사이트는 검색 엔진;
F, 중요 한 페이지는 더 얕은 웹 사이트 구조;에 배치 되어야 합니다
G, 사이트의 산업 기관 정보 사이트의 권위를 향상 됩니다.
이 자습서는 여기, 다음 자습서 주제는: 페이지 값 및 사이트 계산의 무게.
기존 주소: http://www.cmshtml.com/a/201212/30.html