반복적으로 크롤 링 하는 웹 페이지 페이지를 방지 하는 방법

출처: 인터넷
작성자: 사용자
키워드: 방지 크롤링 페이지 웹사이트 분석

중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀

사이트의 로그, 사이트 페이지 페이지 거미에 의해 반복적으로 많은 크롤링 발견의 관찰 분석 사이트 최적화의이 종류 매우 좋지 않다. 우리가 어떻게 스파이더에 의해 크롤 링 하는 웹 페이지를 방지 합니까?

첫째, 로봇 파일이 페이지 화면을 통해 구체적인 방법 구문 형식을 사용 합니다.

금지: / 페이지/#限制抓取Wordpress分页如查你的网站有需要也可以把下面的语句一并写上, 피하 너무 많은 중복 페이지. * 허용 안 함: / 카테고리 / * / 페이지 / * #限制抓取分类的分页 * 허용 안 함: / 태그/#限制抓取标签页面 * 거부: * / 트랙백/#限制抓取Trackback内容 * 거부: / 카테고리 / * #限制抓取所有分类列表 무슨 거미, 파충류로 알려진 또한, 실제로 프로그램입니다. 이 프로그램의 기능 몇 가지 정보를 읽고, 간단한 처리를 할 중앙된 처리에 대 한 백그라운드 서버에 다시 피드를 귀하의 웹사이트의 URL 계층을 따르는 것 이다. 우리는 거미의 환경 설정, 더 나은 일을 할 사이트를 최적화 하기 위해 이해 해야 합니다. 다음 우리는 거미의 작업 과정에 대 한 이야기.

둘째, 거미 동적 페이지 발생

거미 처리는 동적 웹 페이지 정보는 어려운 문제입니다. 동적 웹 페이지는 프로그램에 의해 자동으로 생성 되는 페이지가입니다. 인터넷 프로그램 개발 스크립트 언어를 더 개발, 이제 자연스럽 게 개발 동적 웹 페이지는 더 많은, JSP, ASP, PHP 등 유형과 일부 언어에. 거미는 이러한 스크립트 언어에 의해 생성 된 웹 페이지를 처리 하기 어려울 수 있습니다. JS 코드, 이러한 언어의 처리를 개선 하는 거미를 사용 하지 않기 위하여 최대한 스트레스를 항상 시간의 최적화에서 최적화 스크립트 프로그램 그들의 자신의 필요 합니다. 사이트 최적화에 거미 크롤링 크롤링 페이지 페이지 반복 크롤 링 리드 덜 있도록 일부 불필요 한 스크립트 코드를 줄일!

거미의 시간

웹사이트의 내용을 자주 변경, 업데이트 하지 서식 파일을 변경 하는 것입니다. 거미는 지속적으로 업데이 트 하 고 웹 페이지의 콘텐츠를 크롤 링, 거미의 개발자 설정 업데이트 주기는 크롤 러에 대 한 웹 사이트의 페이지의 비교를 볼 수를 검색 하는 시간 같은 작업을 업데이트 하는 데 필요한 있도록: 홈 페이지의 제목 변경, 어떤 페이지는 새 웹 페이지, 어떤 페이지는 만료 된 죽은 링크, 하 고. 강력한 검색 엔진의 업데이트 주기는 지속적으로 검색 엔진의 업데이트 주기 검색 엔진 회수에 큰 영향을가지고 있기 때문에, 최적화 되었다. 그러나, 업데이트 주기는 너무 오래, 그것은 검색 엔진 정확성과 무결성을 줄일 것 이다, 새로 생성 된 웹 페이지 수가 수 있습니다 검색할 수 없는, 업데이트 주기가 너무 짧습니다, 그리고 기술, 달성 하기 위해 더 어렵습니다 하지만 또한 대역폭, 서버 리소스의 폐기물 발생 하는 경우 있을 것입니다.

4, 거미 크롤링 전략을 반복 하지 않습니다

웹 페이지의 수는 매우 큰, 거미 크롤 링은, 아주 큰 프로젝트, 등등 많은 대역폭, 하드웨어 리소스, 시간 자원의 비용을 크롤링할 웹 페이지. 반복적으로 크롤 링 하는 경우 동일한 웹 페이지는 시스템의 효율성을 크게만 줄어들지 않습니다 하지만 높은 정밀도의 문제 발생. 일반적인 검색 엔진 시스템 설계 하지 동일한 페이지 일정 기간에 한 번만 크롤링하는 웹 크롤 링을 반복의 전략.

에 대 한 사이트 페이지 페이지를 방지 하는 방법은 반복적으로 크롤링 소개는 여기에 세계 무역 네트워크 편집기에 의해 제.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.