어떤 페이지는 검색 엔진의 서버에 저장할 수 있습니다?

출처: 인터넷
작성자: 사용자
키워드: 검색 엔진 크롤링 서버

Absrtact: 검색 엔진은 자체 서버에서 인터넷에 웹 페이지 콘텐츠 단어를 검색 엔진에 대 한 검색만 저장 되도록 검색에 관련성이 높은 콘텐츠를 찾을 그들의 자신의 서버에 있을 것입니다 사용자가 페이지에 서버 엔진

단어를 검색 엔진에 대 한 검색만 저장 되도록 검색 엔진 서버 페이지에 관련성이 높은 콘텐츠를 찾을 그들의 자신의 서버에 있을 것입니다 사용자가 검색할 때 검색 엔진 자체 서버에 인터넷에 웹 페이지 콘텐츠입니다. 웹 페이지 검색 엔진의 서버에 저장 될 수 있는?만 검색 엔진의 웹 크롤 러 캡처 웹 페이지 검색 엔진 서버에 저장 됩니다, 웹 크롤 러는는 검색 엔진 거미. 전체 프로세스 크롤링 및 파악으로 나누어져 있습니다.

거미

크롤 링 하 고 프로그램의 웹 페이지를 방문 하는 데 사용 하는 검색 엔진 거미 라고, 또한 불릴 수 있다 로봇. 거미 방문 브라우저, 그리고 우리가 일반적으로 보고 서핑, 거미도 찾아보기, 수에 대 한 액세스에 대 한 적용 됩니다 하지만 포인트, 검색 엔진 품질 및 속도 개선 하기 위해, 거미의 많은 크롤링 및 크롤링에 넣어 것입니다 그것은.

거미가 어떤 사이트를 방문 하는 경우 그것은 먼저 사이트의 루트 디렉토리에 robots.txt 파일에 액세스 합니다. Robots.txt 파일은 특정 파일 또는 디렉토리를 크롤 링에서 검색 엔진을 금지, 거미는 프로토콜을 준수 하 고 금지 Url을 크롤 링 하지 것입니다.

그리고 브라우저, 검색 엔진 스파이더 또한 자신의 정체성 에이전트 이름 지정, 웹 마 스 터는 검색 엔진 검색 엔진 스파이더가 식별할 수 있도록 특정 에이전트 이름, 로그 파일에서 볼 수 있습니다.

두 번째, 추적 링크

최대한 많은 페이지 검색 엔진 스파이더 웹을 크롤 링 하기 위해서는 거미는 거미줄에 크롤 링 처럼 다음 페이지를 한 페이지에서 페이지에 링크를 추적 합니다.

전체 인터넷 웹사이트와 서로 연결 되는 페이지의 구성 되어 있습니다. 물론, 사이트 및 페이지 링크 구조는 매우 복잡 한, 때문에 거미 웹에 모든 페이지를 통과 하는 특정 크롤링 전략을 해야 합니다.

가장 간단한 크롤링 전략은: 깊이 처음와 광범위 한 첫 번째.

1. 깊이 링크

깊이를 거미 발견 링크 하는 경우 먼저 참조, 그것은 지적 하는 링크를 따를 것 이다도 되었습니다 크롤 링, 앞으로 하기 전에, 다른 링크 때까지 밖으로 다음 첫 번째 페이지에 반환 되며 다음 앞으로 크롤 링에 링크를 계속.

2. 폭 링크

소유권에서 여러 링크를 찾으려면 페이지에서 거미에 따르지 링크는 링크 폭 첫 번째 의미의 관점은 앞으로, 계속 하지만 페이지 링크의 모든 첫 번째 레이어는, 그리고 두 번째 따라 링크의 수준을 찾은 페이지의 제 3의 층에 크롤링할 페이지에.

이론적으로, 여부 깊이 또는 폭, 충분히 거미 만큼 처음 올라 전체 인터넷. 실제 작업에서 아무것도 이다 무한 한, 거미의 대역폭 리소스와 거미의 시간 또한 제한, 모든 페이지를 크롤링할 수는 없습니다. 사실, 가장 큰 검색 엔진은 그냥 크롤 링 하 고 수집 하는 인터넷의 작은 부분.

3. 유치 거미

거미 스타일 모든 페이지를 크롤 링 하지 않을 수 있습니다, 그것은 유일한 크롤 링 중요 한 페이지, 다음 페이지 더 중요 한 것으로 간주 됩니다?

(1) 웹사이트 및 페이지 무게

(2) 페이지 업데이트도

(3) 가져오기 링크

(4)와 첫 번째 클릭 거리

4. 주소 라이브러리

검색 엔진 주소 라이브러리를 구축할 것입니다, 이것을 너무 많이 크롤 링을 피하기 위해 좋은 방법이 될 수 있습니다 또는 반복 크롤 링 현상, 레코드가 발견 되었습니다 뿐만 아니라 페이지를 크롤링 페이지를 크롤 링 하지는.

Url 주소 라이브러리에는 여러 소스:

(1) 수동 입력 씨 웹사이트의.

(거미 2) 새로운 링크 URL HTML 구문 분석에서 페이지를 크롤 링 하 고 데이터의 주소 라이브러리 반면, 주소 라이브러리 URL에 없는 경우 액세스 주소 라이브러리 저장.

(편리한 웹 마 스 터 웹 마 스 터를 제공 하는 양식 3) 검색 엔진 제출 웹 사이트

여기, 검색에 대 한 엔진이 되었습니다 거의 비록 실제 검색 엔진에 대 한 기술만 모피, 하지만 서구에 대 한 인원은 충분.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.