크롤링 페이지에서 검색 엔진을 방지

출처: 인터넷
작성자: 사용자

중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀

Robots.txt 파일은 검색 엔진 봇 (봇 라는) 웹을 크롤 링을 제한 합니다. 이러한 봇 자동 고 robots.txt 파일 웹 페이지에 액세스할 수 있습니다 전에 특정 페이지에 그들의 액세스를 제한 하는 경우 참조 하십시오. Robots.txt는 검색 엔진의 수익에서 귀하의 사이트에 특정 콘텐츠를 보호 하려는 경우에 간단 하 고 효과적인 도구입니다. 여기에 그것을 사용 하는 방법에 대 한 간략 한 소개가입니다.

Robots.txt 파일을 배치 하는 방법

Robots.txt 자체는 텍스트 파일입니다. 그것은 도메인 이름의 루트 디렉토리에 있어야 하 고 "Robots.txt" 라는. 하위 디렉터리에 있는 robots.txt 파일 로버만 도메인 이름의 루트 디렉토리에에서 파일을 찾습니다 때문에 유효 하지 않습니다. 예를 들어 Http://www.1520cc.cn/robots.txt은 유효한 위치, Http://www.1520cc.cn/mysite/robots.txt 되지 않습니다.

Robots.txt 예제가입니다.

사용자 에이전트: *

금지: / cgi-빈 /

금지: / tmp /

금지: / ~ 이름 /

Robots.txt 파일을 사용 하 여 전체 웹 사이트를 삭제 또는 차단

검색 엔진에서 사이트를 제거 하 고 나중에 귀하의 사이트를 크롤 링에서 모든 봇 방지, 하려면 서버의 루트 디렉터리에 다음 robots.txt 파일을 배치:

사용자 에이전트: *

금지: /

미래에 귀하의 사이트를 크롤 링에서 Googlebot을 방지 하기 위해, 그리고 유일한 Google에서 귀하의 사이트를 제거 하려면 다음 robots.txt 파일 서버의 루트 디렉터리에 배치:

사용자-에이전트: googlebot

금지: /

각 포트는 자체 robots.txt 파일이 있어야 합니다. HTTP 및 HTTPS를 통해 콘텐츠를 호스팅하는 경우에 특히 이러한 프로토콜 자신의 robots.txt 파일을 해야 합니다. 예를 들어 Googlebot 모든 HTTP 웹에만 인덱스 페이지와 페이지를 HTTPS에 대 한 하지, 다음 robots.txt 파일을 사용 하 여.

HTTP 프로토콜 (Http://yourserver.com/robots.txt):

사용자 에이전트: *

허용: /

HTTPS 프로토콜 (Https://yourserver.com/robots.txt):

사용자 에이전트: *

금지: /

웹 페이지에 액세스 하려면 모든 봇 허용

사용자 에이전트: *

허용 안 함:

(또 다른 방법은: 빈 만들기 "/ robots.txt" 파일, 또는 robot.txt를 사용 하지 마십시오.) )

차단 하거나 삭제 robots.txt 파일을 사용 하 여 웹 페이지

귀하의 사이트에 페이지를 크롤 링에서 Googlebot을 방지 하기 위해 robots.txt 파일을 사용할 수 있습니다. 예를 들어 (예를 들어, 개인) 특정 디렉토리의 모든 페이지를 크롤 링에서 Googlebot을 방지 하기 위해 robots.txt 파일을 수동으로 만들면 다음 robots.txt 항목을 사용할 수 있습니다.

사용자-에이전트: googlebot

금지: / 개인

특정 파일 형식에 대 한 모든 파일을 잡는에서 Googlebot을 방지 하기 위해 (예를 들어. gif), 다음 robots.txt 항목을 사용 하 여:

사용자-에이전트: googlebot

금지: / *.gif$

Googlebot 크롤 링 모든 포함 하지 않도록? URL (특히,이 URL을 도메인 이름으로 시작, 의미 문자열 다음 물음표, 그리고 다음 모든 문자열), 그리고 다음 항목을 사용할 수 있습니다:

사용자-에이전트: googlebot

금지: / *?

비록 우리가 크롤 링 하지 않거나 robots.txt에 의해 차단 되는 웹 페이지의 콘텐츠, 우리 아직도 웹 사이트를 크롤 링 하 고 만약 우리가 다른 웹 페이지에 그것을 찾을 그것을 색인. 따라서, 웹 사이트 및 사이트 링크에 위치 텍스트 같은 다른 공공 정보는 Google 검색 결과에 나타날 수 있습니다. 그러나, 귀하의 웹 페이지에 있는 콘텐츠는 하지, 인덱스, 그리고 표시 됩니다.

웹 마 스 터 도구의 일환으로, Google robots.txt 분석 도구를 제공합니다. Googlebot robots.txt 파일을 읽어와 Google 사용자-에이전트, Googlebot 등에 대 한 결과 제공할 수 있습니다 그것은 같은 방식으로 파일을 읽을 수 있습니다. 당신이 그것을 사용 하는 것이 좋습니다. Robots.txt 파일을 만들기 전에 그것은 사용자가 콘텐츠를 검색할 수 있는 검색 되어야 하지 고려 하는 것이 중요. Robots.txt의 합리적인 사용을 통해이 방법으로 검색 엔진 사용자 귀하의 사이트를가지고 뿐만 아니라 개인 정보는 포함 하는 보장 하기 위해.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.