중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
집, 사이트 관리자 robots.txt 것에서 발생 하지 많은 관심 친구 요청 해야, 오늘 간단히 글을 robots.txt에 대 한 이야기를이 기사를 전달 싶어.
Robots.txt 기본 소개
Robots.txt는 사이트 관리자는 그들이 하지 않으려는 로봇, 액세스할 수 또는 지정 된 콘텐츠만 포함 하도록 검색 엔진을 지정 하는 사이트의 일부를 선언할 수 있습니다 일반 텍스트 파일입니다.
검색 로봇 (일부 라고 검색 스파이더) 사이트를 액세스 하는 경우 사이트의 루트 디렉토리에 robots.txt는 검색 로봇 링크 따라 크롤 링, 검색 로봇에는 파일이 존재 하지 않는 경우 액세스;의 범위를 결정 하는 파일의 내용을 따를 수 있습니다, 경우 있는지 먼저 확인 합니다.
또한, robots.txt는 사이트의 루트 디렉터리에 배치 해야 하 고 파일 이름은 모두 소문자 여야 합니다.
Robots.txt 쓰기 문법
첫째, robots.txt 예제를 살펴 봅시다: Http://www.csswebs.org/robots.txt
위의 특정 주소를 방문, 우리가 볼 수 있습니다 robots.txt의 구체적인 내용을 다음과 같습니다.
# Http://www.csswebs.org에서 Robots.txt 파일
# 모든 로봇은 거미 도메인
사용자 에이전트: *
허용 안 함:
위의 텍스트는 모든 검색 봇 www.csswebs.org 사이트에서 모든 파일을 액세스를 허용 하도록 의미 된다.
특정 문법 분석:는 다음 텍스트는 설명에 정보; 사용자 에이전트: 다음 검색 로봇의 이름을 *, 가리킵니다 모든 검색 로봇; 거부: 나중에 액세스할 수 허용 하지 않는 파일 디렉터리.
아래, 내가 robots.txt의 어떤 특정 한 용도 열거 합니다.
로봇에 대 한 모든 액세스를 허용
사용자 에이전트: *
허용 안 함:
또는 빈 파일을 만들 수 있습니다 "/ robots.txt" 파일
모든 검색 엔진 사이트의 일부에 액세스 하지 못하도록 금지
사용자 에이전트: *
금지: /
모든 검색 엔진 사이트의 여러 부분에 액세스 금지 (01, 02, 03 디렉터리 다음 예제에서)
사용자 에이전트: *
금지: / 01 /
금지: / 02 /
금지: / 03 /
검색 엔진 (다음 예제에서 Badbot)에 대 한 액세스를 금지
사용자-에이전트: badbot
금지: /
하나의 검색 엔진 액세스 (다음 예제에서 크롤러) 허용
사용자-에이전트: 크롤러
허용 안 함:
사용자 에이전트: *
금지: /
또한, 그것은 로봇 메타 소개의 설명을 확장 하는 데 필요한 생각.
로봇 메타 태그는 특정 페이지에 집중 된다. 다른 메타 태그 (예: 언어 사용, 페이지, 키워드, 및 등의 설명), 로봇 메타 태그에 배치 됩니다 같은 페이지, 검색 엔진에 게 페이지의 콘텐츠를 크롤 링 하는 방법 특히.
로봇 메타 태그의 표현:
어떤 경우는 로봇 메타 태그에 이름 = "로봇" 의미 모든 검색 엔진 이름으로 작성할 수 있습니다 특정 검색 엔진에 대 한 "Baiduspider" =. 콘텐츠 섹션은 네 가지 명령 옵션: 인덱스, NOINDEX, nofollow, 따라 하 고 지시를 구분 하 여 ",".
인덱스 명령을 알려줍니다; 페이지를 크롤 링 하는 검색 로봇
따라 명령 검색 로봇 수 페이지; 링크 따라 크롤 링을 계속 해 서 나타냅니다.
로봇 메타 태그에 대 한 기본값은 인덱스와 잉크 토미, 색인, nofollow 기본값 제외 따라.
이 방법에서는, 조합의 4 개의 종류는:
< 메타 이름 = "로봇" 내용 = "색인, 따라"
< 메타 이름 = "로봇" 내용 = "Noindex, 따라"
< 메타 이름 = "로봇" 내용 = "색인, nofollow"
< 메타 이름 = "로봇" 내용 = "색인, nofollow"
어떤
< 메타 이름 = "로봇" 내용 = "색인, 따라" 쓸 수 < 메타 이름 = "로봇" 내용 = "all";
< 메타 이름 = "로봇" 내용 = "색인, nofollow" 쓸 수 < 메타 이름 = "로봇" 내용 = "없음"
그것은 보이지만 검색 엔진 로봇의 대부분은 robots.txt의 규칙 준수 로봇 메타 태그에 대 한 현재 별로 지원, 하지만 점차적으로 증가와 같은 유명 검색 엔진 구글을 완벽 하 게 지원, 구글 또한 지시문 추가 " 아카이브 ", Google은 페이지의 스냅숏을 유지 여부를 제한할 수 있습니다. 예를 들어:
< 메타 이름 = "Googlebot" 내용 = "색인, 따라, noarchive"
사이트에 페이지를 크롤 링 하 고 페이지 따라 크롤 링 하지만 Goolge에 페이지의 스냅샷을 유지 하지 나타냅니다.