중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
인터넷은이 쿨러, 점점 WWW의 인기는 그것의 절정에. 기업 정보는 인터넷에 게시 하 고 전자 상거래는 패션 유행에서 진화 했다. 웹 마스터 당신은 HTML, 자바 스크립트, 자바, 그리고 ActiveX, 잘 알고 있을 수 있습니다 하지만 당신이 뭘 알아 웹 로봇은? 웹 로봇 디자인 하는 홈페이지와 함께 할 수 있다 아십니까?
인터넷---웹 로봇에 떠돌이
때때로 당신은 발견할 것 이다 어떻게든 홈페이지의 콘텐츠는 검색 엔진에 색인이 생성 됩니다 경우에 당신은 그들과 접촉을 가진 적이 있다. 이것은 실제로 웹 로봇의 신용 이다. 웹 로봇 실제로 인터넷 Url의 많은 수의 하이퍼텍스트 구조를 이동할 수 있는 프로그램 이며 반복적으로 웹 사이트의 모든 콘텐츠를 검색 합니다. 이 프로그램 "스파이더 (거미)", "인터넷 떠돌이 (웹 방 랑 자)", "네트워크 웜" (웹 벌레), 또는 웹 크롤러 라고도 합니다. 일부 인터넷 유명 검색 엔진 사이트 (검색 엔진) 전용 웹 로봇 프로그램 webcrawler, 라이 코스, 알타비스타, 등의 정보를 수집 하 고 중국 검색 엔진 사이트 폴라리스, NetEase, 등 Goyoyo입니다.
웹 로봇 관심 여부에 관계 없이 초대 받지 않은 손님 처럼, 충성의 소유자의 책임, 하드, 지칠 줄 모르는 하 고 끊임없이 월드 와이드 웹 공간에, 물론, 것입니다 귀하의 홈페이지를 방문, 홈페이지 콘텐츠를 검색 되며 필요한 레코드 형식 생성. 아마도 세계를 즐길 콘텐츠 홈 페이지의 일부 알고, 통찰력, 색인을 하지 않으려는 일부 내용. 수 당신은 그냥 냅 둬 "과격 한" 홈 페이지 공간에 명령 하 고 웹 로봇의 행방을 제어할 수 있습니다? 물론, 대답은 ' 그렇다. 교통을 같은 수로이 문서를 읽기 경찰, 장식는 푯 말, 웹 로봇에 게 귀하의 홈페이지를 검색할 수 있는 액세스할 수 있는 검색 하는 방법.
사실, 웹 로봇을 이해할 수 있다.
실행의 번들 없이 하지 웹 로봇 구성 됩니다 생각 하지 않습니다. 많은 웹 로봇 소프트웨어 웹 사이트 또는 웹의 관리자에 대 한 두 가지 방법으로 콘텐츠 웹 로봇의 행방을 제한 하는 제작자를 제공 합니다.
1. 프로토콜
웹 사이트의 관리자가 사이트의 어느 부분이 즉, Http://.../robots.txt 사이트의 루트 디렉터리에 배치 됩니다 로봇에 의해 액세스할 수 있는 표시를 사이트에 특정 형식의 파일을 만들 수 있습니다.
2, 로봇 메타 태그
웹 페이지 작성자 여부 웹 페이지 수 있습니다 수 색인, 구문 분석, 또는 연결을 나타내는 특별 한 HTML 메타 태그를 사용할 수 있습니다.
이러한 메서드는 대부분 웹 로봇, 소프트웨어에서 이러한 메서드는 구현 하는 여부로 적합 하지만 또한 로봇 개발자에 의존, 어떤 로봇에 대 한 효과를 보증 하지 않습니다. 필사적으로 귀하의 콘텐츠를 보호 하기 위해 암호를 추가 하는 등 다른 보호 방법을 고려 해야 합니다.
배제 프로토콜을 사용 하 여
로봇 http://www.sti.net.cn/, 같은 웹 사이트에 액세스 하는 경우 먼저 파일 http://www.sti.net.cn/robots.txt을 확인 합니다. 파일이 있으면 그것은 레코드 형식에 따라 구문 분석 합니다.
사용자 에이전트: *
금지: / cgi-빈 /
금지: / tmp /
금지: / ~ 조 /
사이트의 파일을 검색 해야 경우 결정 합니다. 이 레코드 전용 웹 로봇, 일반 방문자 아마 그래서 기발한에 추가 하지 마십시오이 파일을 볼 것 이다는 < img src = * > HTML 문 클래스 또는 "어떻게 짓?" 어디 계세요? 인사말 가짜.
하나만 있을 수 있습니다 "/ robots.txt" 파일 사이트, 그리고 파일 이름의 각 문자에 모두 소문자 필요. 각각 "거부" URL을 액세스 하는 로봇을 원하지 않으면, 각 URL 별도 줄에 있어야 하 고 표시/cgi-빈/같은 수 없습니다 로봇 레코드 형식 나타냅니다에 선 "거부: 잘못 된 문장/tmp /." 또한 빈 행은 여러 레코드 분할에 대 한 플래그 때문에 레코드에 빈 행을 가질 수 없습니다.
사용자 에이전트 라인 로봇 또는 다른 에이전트의 이름을 나타냅니다. 사용자 에이전트 라인에 ' * '는 특정 의미---모든 로봇을 나타냅니다.
여기 robot.txt의 몇 가지 예입니다.
전체 서버에서 모든 로봇을 거부:
사용자 에이전트: *
금지: /
전체 사이트에 액세스 하는 모든 로봇을 허용:
사용자 에이전트: *
허용 안 함:
빈을 생성 하는 또는 "/ robots.txt" 파일.
모든 로봇 접근을 허용 하는 서버 일부 콘텐츠
사용자 에이전트: *
금지: / cgi-빈 /
금지: / tmp /
금지: / 개인 /
특정 로봇 거부:
사용자-에이전트: badbot
금지: /
위 하 하나의 로봇을 허용:
사용자-에이전트: webcrawler
허용 안 함:
사용자 에이전트: *
금지: /
마지막으로, 우리는 http://www.w3.org/site에는 robots.txt를 준다:
# search.w3.org에 의해 사용 하기 위해
사용자-에이전트: w3crobot / 1
허용 안 함:
사용자 에이전트: *
금지: / 회원/#이이 제한 하는
금지: / 회원/#이이 제한 하는
금지: / 팀 / # 컨소시엄만이 제한
금지: / tands/멤버 #이이 제한 하는
금지: / tands/팀이 컨소시엄을 제한 #
금지: / 프로젝트
금지: / 시스템
금지: / 웹
금지: / 팀
로봇 메타 태그 메서드를 사용 하 여
로봇 메타 태그는 HTML 웹 페이지 제작자를 페이지를 인덱싱할 수 있는지 여부 또는 경우 사용할 수 있습니다 더 연결 된 파일을 찾을 수 있습니다. 일부 로봇만 현재이 기능을 구현 했습니다.
로봇 메타 태그의 형식은:
< 메타 이름 = "로봇" 내용 = "색인, NOFOLLOW" >
다른 메타 태그 같은 HTML 파일의 헤드 영역에 배치 되어야 합니다.
< html >
< 헤드 >
< 메타 이름 = "로봇" 내용 = "색인, nofollow" >
< 메타 이름 = "설명" 내용 "이이 페이지..." = >
< 제목 > < / 타이틀 >
</헤드 >
< 몸 >
...
로봇 메타 태그 지시문은 쉼표로 구분 하 여, 그리고 사용 될 수 있는 지침 등 [없음] 인덱스 [] 아니오. 인덱스 명령을 나타냅니다 여부는 인덱싱된 로봇이이 페이지를 따라 지침 로봇이이 페이지에 링크를 추적할 수 있는지 여부를 나타냅니다. 기본값은 인덱스와 따라. 예를 들어:
< 메타 이름 = "로봇" 내용 = "색인, 따라" >
< 메타 이름 = "로봇" 내용 = "Noindex, 따라" >
< 메타 이름 = "로봇" 내용 = "색인, nofollow" >
< 메타 이름 = "로봇" 내용 = "색인, nofollow" >
좋은 웹 사이트 관리자는 그래서 그들의 자신의 웹 페이지 보안을 타협 하지 않고 자신의 홈 페이지에 대 한 그의 로봇 서비스 계정 로봇 관리에 소요 됩니다.
HTML 문서
에서 작은 메타의 큰 역할
robots.txt와 로봇 메타 태그
Robots.txt 가이드
로봇 메타 태그의 사용