중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
많은 사람들이 봐 크롤러 놀라운, 하지만 가장 일반적인 "경험의 연습" 발생-연습 입증 바이 크롤러 초의 원본 콘텐츠를 받게 됩니다!
물론, 검색 엔진의 원리를 이해 하는 사람의 눈에 이것이 6188.html ">" 연습. 연습 후 유효성을 더 나은 이론적 가설 경우 다음 진실을 확인 하는 방법 인 경우에. 그리고 같은 크롤러가 콘텐츠를 분석 하는 능력을가지고 있지 않다면, 어떻게 확인할 수 있습니다 당신은 컬렉션 후 페이지의 콘텐츠가 원본 인지?
심지어 어떤 사람들 생각 크롤러 더욱 이상한 컬렉션의 콘텐츠를 크롤 링 하지 않을, 파충류는 예언자, 어떻게 알 수 있는 페이지 수집 크롤 링 하기 전에? (이 특별 한 경우를 고려 하지 않은, 즉, 검색 엔진 사이트의 크롤링 우선 순위 문제를 확인 하려면 전체 원래 속도를 참조할 수 있습니다 하지만 이것은 상대적으로 깊은)
검색 엔진 4 시스템: 다운로드, 분석, 인덱스, 쿼리, 이러한 4 개의 조각 작품의 기본적으로 독립, 판사 컬렉션 또는 작동 하지 분석 시스템. 그리고는 대규모 페이지 검색의 효율성으로 인해 반복된 페이지는 일반적으로 색인 시간이 더 긴 기간을 삭제 됩니다 후 추정 된다. 즉, 포함 하는 검색 엔진 페이지, 적어도 페이지 자체의 품질.
그것은 지금 라고 설명 크롤러 하지만 사실, 엄격한 의미에서 크롤러가 페이지의 품질도 링크를 당겨 하지 않습니다, 그것은 단순히 TCP/IP 프로그램을 판단 하지 않을 수 있습니다. 하지만 링크의 분석은 항상, 그렇지 않으면 크롤러 수 새로운 페이지를 크롤링하지. 정확 하 게 말하면, 분석 링크 발송자에 할당 됩니다. 1 크롤러 크롤링 페이지, 발송자 1 분석, 발송자 1 페이지 1, URL 라이브러리를 발견된 링크와 일부 디스패처 링크 다시 파충류 1 중요 한 생각 모든 넣어, 그 중요 한 페이지를 크롤 링 크롤 러 1. 같은 시간에 1 크롤러 크롤링 페이지 1, 페이지 라이브러리에 내부 페이지 및 URL 라이브러리 1 페이지 1 반복 하는 경우는 더 이상 반복 한다 크롤링.
대형 상용 검색 엔진은 많은 파충류 협력,이 시간에 각 "발송자" 하 고 정보를 교환 하는 "마스터 일정" 그래서 특정 각 크롤 러의 작동. 종종 단어를 많이 크롤 링 하는 페이지를 짧은 시간이 걸릴 몇 파충류를 볼 자주 경우 디스패치 작업 잘 하지 않았다.
하지만 사실, "발송자"와 같은 파충류에 프로그램 잘못 되지 않습니다. 그냥 상대적으로 엄격한 성명, 상대적으로 느슨한. 하지만 어쨌든, 크롤러 그냥 다운로드, 그것을 다운로드 하려면 발송자를 몇 트릭.
이 문서에서 http://www.csdinuan.com 이며 무단 전재를 허용 하지만 링크를 계속 하시기 바랍니다.