중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
네트워크 과학의 급속 한 발전으로 사람들의 인터넷 검색 엔진에 대 한 의존도 점점 더 강한, 특히 오늘날의 네트워크에서 자원은 풍부, 21 세기, 검색 기술 상승 네트워크 정보 수요 점유 한다 인터넷의 매우 중요 한 지휘 포인트. 지금 사람들이 자주 검색 엔진 멀티미디어 자료, 최신 정보 및 지도 및 기타 정보에 대 한 검색을 사용 합니다.
첫째, 검색 엔진의 기본 원리
검색 엔진 웹 페이지 데이터 데이터베이스를 구축 하 고 쿼리를 제공할 수 있는 시스템입니다.
1.1 검색 엔진의 구조
웹 검색 웹 스파이더 웹 페이지를 크롤 링을 통해 이며 링크를 크롤 링의 각 페이지에 따라 다른 페이지 결국 크롤링할 수 많은 페이지와 이러한 페이지 압축 처리, 기술 자료에 저장 합니다. 웹 거미 프로그램 정보 및 효과의 적시성을 보장 하기 위해 전체 네트워크를 크롤 링을 계속 합니다.
전처리 링크 분석, 웹 페이지 계산 및 키워드 추출의 중요성, 인덱스 데이터베이스의 설립에 대 한 웹 페이지의 컬렉션, 데이터베이스 아키텍처 최대한 포괄적인 수 정보를 포함 하는 검색을 용이 하 게 해야 합니다.
사용자 입력 키워드, 색인 데이터베이스에 키워드에 따라 신속 하 게 찾을 사용자에 게 반환 되는 관련 정보, 서비스 사용자에 게 서비스를 말합니다.
1.2 분류 검색 엔진의
검색 엔진은 세 가지 범주로 나눌 수 있습니다: 전체 텍스트 검색 엔진, 디렉토리 검색 엔진, 메타 검색 엔진.
전체 텍스트 검색 엔진은 웹 거미 크롤 링 각 페이지, 추출 하 고 사용자는 키워드를 사용 하 여 사용자 입력을 일치 하 고 사용자에 게 반환 되는 정보는 데이터베이스에 저장 된 정보를 통해. 이것은 하나의 가장 많이 사용 된 검색 엔진, 그리고 구글, 바이이 종류에 속한다.
디렉터리 검색 엔진 분류, 결국 매우 큰 디렉터리 시스템을 구축 하는 특정 방법에 따라 리소스를 검색 하는, 사용자 쿼리 검색 디렉터리를 열 수 및 마지막으로 정보를 찾을, 디렉터리 검색 엔진 엄격 하 게 실제 검색 엔진. 우리 야 후를 사용 하 여, 시 나가.
메타 검색 엔진은 다른 검색 엔진을 호출 하는 엔진의 종류, 그것은 더 많은 리소스를 커버 수 있습니다 더 포괄적인 서비스를 제공. 더 잡아 vivisimo, 국내 검색 스타의 사용.
이러한 세 가지 다른 검색 엔진은 그들의 자신의 이점 및 불리와 다른 경우 사용할 수 있습니다. 전체 텍스트 검색 엔진은 일반적으로 포괄적인 검색 사용, 그것의 장점은 정보는 큰, 적시 업데이트, 수동 개입 하지 않아도 단점은 정보 처리는 크고 어려운. 디렉터리 검색 엔진은 대부분 웹 기반 디렉터리 서비스와 직접 검색 서비스, 그것의 장점은 검색은 정보 검색의 정확도 개선에 도움이 되는 수동 개입, 단점은 인간의 개입, 유지 보수 비용, 업데이트에 대 한 필요성, 정보는 작은 제공 하. 메타 검색 엔진 그래서 그것이 검색, 하지만 현재 다른 검색에서 높은 비율의 경우에 특히 적합 한 다양 한 다른 검색 엔진을 쿼리할 수 있습니다 때문에 엔진, 인덱스 데이터베이스의 설립 및 특정 메서드를 검색 하는 쿼리의 구현 또는 규칙은 동일한 도구 검색 메타 검색 효과 크게 영향을 미치는.
둘째, 여러 주요 검색 엔진 구현 기술
2.1 웹 거미
웹 스파이더는 여러 가지 방법으로 구현할 수 있다:
(1) 먼저 폭에 따라. 너비 우선 알고리즘 발생 링크의 순서로 액세스할 수 있습니다. 그것은 모든 웹 거미의 가장 간단한 전략 중 하나입니다.
(2) 먼저 깊이에 따라. 웹 페이지와 검색 주제 사이의 유사성은 선택한 조건에 따라 계산 하 고 가장 비슷한 링크를 검색 하려면 선택 먼저 깊이 생각에 따라, 유사성 계산 코사인 일반적으로 사용 됩니다.
(3) 페이지 등급에 따라. 웹 평가의 사용 및 문서 등급, 가장 높은 정격된 링크의 선택에서 계산된 결과 사용 하 여 다음 검색 개체의 컬렉션에 대 한 검색의 콘텐츠는 웹 등급에 따라.
(4) Infospider입니다. Infospider 진화 키워드 목록 및 신경망 방법의 사용은, 주제와 관련 된 페이지의 유사성을 계산, 계산 결과에 따라 검색할 다음 개체를 결정 합니다, 그리고 주제, 새로 구입한 문서의 관련성 및 에이전트의 에너지를 해결 하기 위해 문서를 취득의 비용 계산 그리고 그것의 에너지 레벨에 따라 에이전트 실행 취소, 다시 생성 및 생존 결정 됩니다.
2.2 웹 페이지의 중요성 평가
하나 링크 기반으로 웹 페이지의 중요성을 평가의 두 가지 주요 방법이 있다
메서드, 다른 유사성을 기반으로 합니다.
기반으로 링크의 계산의 링크 방법에 정보 및 연결된 된 개체 있어야 믿을 수 매핑 관계의 어떤 종류. 다음 응용 프로그램 프로세스에 사용 됩니다.
(1) 항목:;이 페이지에서 대상으로 하는 링크의 수를 포함
(2) 학위:; 웹 페이지에서 페이지에 링크의 수
(3) 페이지 순위: 어떤 주어진된 시간에 웹 페이지를 액세스 하는 사용자의 가능성.
이 방법은 널리 사용 하 고 효과적입니다.
유사도 계산을 바탕으로, 벡터 공간 모델이 벡터, 쿼리 문자열 및 텍스트를 변환 하는 데 사용은 다음 텍스트와 쿼리 문자열 간의 유사성을 평가 합니다.
2.3 검색 엔진 하드웨어 시스템 설립
빠른 쿼리 속도 제공 하기 위해 검색 엔진 하드웨어 시스템은 전체 시스템의 중추, 하드웨어 시스템은 일반적으로 분산된 구조를 채택, Google의 서버는 주위 세계, 뿐만 아니라 속도 실행 속도를 병렬 기술 사용 하 여 배포 됩니다. 또한, 색인 데이터베이스의 하드웨어 디자인도 중요 하다,이 데이터 액세스 속도 개선 하기 위해 매우 중요.
셋째, 검색 엔진 방지 쇼 동향
미래의 검색 엔진에는 특성이 있다:
(1); 인터넷에 거의 모든 정보를 수집할 수
(일부 불법 정보 차단 2) 수 있습니다.
(3) 전체 속도 정밀도 비율의 개선
(4) 텍스트 검색 단어를 인식할 수 있다 뿐만 아니라 또한에; 인식 이미지, 오디오, 비디오를 만들 수 있다
(5) 정보 업데이트 빠른;
(6) 크로스-라이브러리 문의 촉진 소개;
(7) 인간 답게 하 고 개인화 된 대화형 인터페이스;
(8) 지능형 검색 실현 될 수 있다.
(9) 모바일 검색 좋은 진행 하 게 됩니다.
Iv입니다. 요약
이 문서는 검색 엔진에 자세한 설명에 실시 하고있다 그의 핵심 기술 실현에 분석에 있으며 향후 개발 추세를 제안, 기술 개발, 함께 사람들 향상 요구, 다른 더 많은 지적, 더 효율적이 고 실용적인 것입니다 검색 엔진.