당신이 사이트의 작동 방식을 이해 하는 거미의 크롤링 특성 분석

출처: 인터넷
작성자: 사용자

중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀

웹사이트 및 유지 보수의 일상 작업에서 우리가 자주 WWW의 공간을 통해 로그인 해야 거미의 파악, 조정, 정상적인 작업을 이해 하 다음 단계별 완전히 그들의 자신의 조정 및 수정에 대 한 참조로 각 매개 변수의 의미를 이해할 수 있도록 로그 및 거미의 캡처 기능 분석의 설정을 완전히 이해 하면 될 것입니다.

첫째: 해야 있는지 확인 하는 가상 호스트 또는 서버 로깅 사용에, 일반적인 가상 공간 상인의 제어 패널 로그 기록 기능, WWW를가 하며 다운로드 stationmaster 분석, 다음은 각 공간 상인의 작업 순서와 방법을 다릅니다 때문에 로그 스타일 사용 뿐만 아니라 동일, 여기에에 대 한 참조가입니다.

먼저 그림 하나를 클릭 하거나 그림 2에서 인터페이스를 입력, 웹 로그 로그를 다운로드 하려면 클릭 나타납니다에 그림 4의 인터페이스를 그림 4 각각의 TXT 내부는 년-월-일, 및 자세한 정보를 보려면 클릭 로그의 크기를 기록.

  

둘째: 때문에 txt 로그 K, 라인, 수천의 수백 각각을 확인 하는 현실, 우리가 완전히 이해할 필요가 거미의 특성과 쿼리를 통해 빠른 위치, 작동 거미 코드는 거미, 거미의 흔적을 찾을 코드에서 그래서 검색 스파이더 바이, 구글, 등 모든 거미의 방문 밖으로 올 것 이다 360, 그리고, 그리고 바이 거미 특성 baiduspider, 우리 여기 바이 거미의 상황을 설명 하는.

우리가 먼저 다운로드 txt 문서를 메모장을 사용 하 여 입력과 편집 lookup 함수 (그림 V) 신속 하 게 검색을 통해 검색 상자에서 바이, 따라와 확인 코드를 찾을 수 바이 거미 크롤링 (그림 6)

  

셋째: 바이 데 거미 크롤 링 행 각 매개 변수, 설명 하는 편집기와 (샘플 다이어그램 참조)을 설명 하기 위해 해당 상황 후.

  

매개 변수 1: 이것은 콘텐츠를 크롤링하려면이 시간 일반적 바이 거미 및 컴퓨터 8 시간, 이것은 주로 로그 사용 시간 GMT 이며 베이징 8 시간 차이 시간, 8 시간을 해당 베이징 시간입니다, 그래서 추가 해야 하는 즉, 매개 변수 1 크롤링 거미의 시간은 5 월 23 일 13: 8입니다.

매개 변수 2: 방법의 콘텐츠를 크롤 링, 후 the/index.html 페이지를 크롤 링은, 뒤에 얻을 경우, 홈페이지를 잡으려고 거미이 즉 /-스파이더 할 아무것도 크롤 링 하지,이 시간, 사이트 유지 보수 직원의 관심을 일으킬 필요가 의미 하는 즉시 다음의 의미를 캡처 하는 방법 귀하의 콘텐츠 또는 문제, 또는 사이트의 홈 페이지 레이아웃, 또는, 기사의 내용이 고 그래서 문제는, 특정 문제 특정 분석 필요.

매개 변수 3: 이것은 서버의 IP 주소를 때문에 지금 많은 도메인 이름 CNAME 해결, 너무 많은 웹 마 스 터 알지 그들의 자신의 사이트 IP는 얼마나 많은, 그리고이 IP 사용 하는 콘텐츠를 크롤링, IP의 거미를 공간 몫 때 콘텐츠 크롤링 거미 때 사이트에 문제가 있는 IP와 상황의 포함 그들이 연루 여부를 확인 하는 사이트의 수에 의해 확인할 수 있습니다.

매개 변수 4:이 매개 변수는 프로토콜, 보통 200 의미 정상, 파일을 찾을 수 404 의미, 500 내부 서버 오류 상태, 일반 사이트 모든 페이지 해야 200 올바른지, 개정 404 오류는 일반적으로 하는 경우 여기를 쿼리 특정 이유로 다른 반환 값을 기반으로

여담: 모든 웹 마 스 터의 새로운 웹 사이트는 걱정 스럽게 기다리고 크롤링 및 색인, 거미에 대 한 그들의 사이트는 좋은 순위, 하지만 지금은 새로운 사이트 검토에 대 한 바이 거미는 매우 엄격한 되었습니다 고 시간은 일반적으로 20 일 이상 그래서 바이 거미 콘텐츠를 크롤 링 하 고 좋은 순위를 얻을에 점점 더 어려운, 거미 더 지능적인 학위 되고있다 되 고 싶어요, 속임수 또는 거미의 신뢰 속에 검은 모자 간 계, 쉽게 되지 않았습니다. 그리고 바이 부정 행위 방지 센터에서 나중에 사이트의 심층 검사 발견 및 stationmaster 조언 그래서 할 처벌, 아래 해당 하는 부정 행위의 정도 따라 사이트를 속일 것 이다 성공 하는 경우에 또는 확고 할 역, 흰 모자 마스터를 할 당신은 걱정 무료 순위 기업 웹사이트 유지 자신을 헌신.

5 첫 머리에 Sichuan 붕 http://www.cdxzhg.com에 의해 위의 문서, 모든 stationmaster 함께 희망 격려, 만약 필요 기입 소스를 알려주세요, 협력 감사 합니다.

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.