중간 트랜잭션 http://www.aliyun.com/zixun/aggregation/6858.html "> seo 진단 Taobao 게스트 클라우드 호스트 기술 홀
조약돌 알고리즘은 기본 알고리즘 중 하나의 동일 하거나 유사한 페이지 제거, 서구 집계 하는 검색 엔진 페이지를 확인 하는 방법을 반복 되지 않습니다 때 페이지? 반복의 문제를 해결 하는 방법? 싱글 알고리즘 일부 영감을 다시 밀릴 수 있다.
영어에서 싱글 [ˈʃɪŋgəl] 도와 서로 커버를 의미 합니다. 첫째, 예를 들어 싱글 알고리즘을 설명 하기 위해 주어진 다:
가정은 a, B 두 문서 제목 문서 제목입니다:이 명 전화 예약 열차 티켓 수 걸릴 티켓 시간 지연 12 시간; 국가 액세스 b 문서의 제목은: 항공권 전화 예약 온라인 예약 판매 기간 연장에 대 한 전국 액세스를 달성 하기 위해 훈련.
어떻게 합니까 검색 엔진 인지 여부를이 두 문서 제목 중복? 예를 들어 우리 수 잘라 2 한자 한 조약돌 메서드:
길이 L의 문서에 대 한 모든 N 한자는 잘라 지붕 널, 그렇게 총 l 컷-n + 1 싱글, l로 문서 제목-n + 1 = 21-2 + 1 = 20 반짝이, b 문서 제목으로 l-n + 1 = 20-2 + 1 = 19 싱글.
A, b 두 문서 머리글 일반적인 지붕 널에 7 굵게 차트: 전화, 단어 순서, 기차, 티켓, 국가, 국가 패스, 패스 받아.
A, B 두 문서 제목을 모두가지고 20 + 19-7 = 32 조약돌.
그러나, a, b 두 문서 머리글에서 나눈, 일반적인 싱글 a, B 두 문서 제목 전부 조약돌을가지고 이러한 두 문서 머리글의 jaccard 계수, 판사 A 사용할 수 있습니다 b 2 문서 제목 유사성 정도.
A, b 두 문서 제목 Jaccard 계수 =7/(20+19-7) = 0.21875
두 문서 제목에서 두 페이지 문서를 확장 하 고 확장 여부를 확인 페이지는 페이지에 유사 Jaccard 요소 같은 조건에 맞는지 여부에 의해 n 페이지 수 있습니다.
이것은 지붕 널 알고리즘, 두 집합의 교집합은 두 세트의 세트를 나눈 고 Jaccard 계수 jaccard 계수는 특정 번호 보다 큰 있는지 확인 하 여 두는 중복 여부 결정을 얻을 수 있습니다.
조약돌 알고리즘, Jaccard 계수는 특정 번호 보다 작으면 역방향 반복 하지 않습니다, 처음 지붕 널, 및 다음 페이지의 특정 숫자 보다는 더 적은 생성 될 수 있습니다 경우 Jaccard 계수를 계산 하는 22의 수로 설정 하는 각 문서에.
비록 상대적으로 바보 같은 메서드를 사용 하기 전에 프로젝트를 않았다 하지만 또한 실용적인, 공유:
베이징 영화 카테고리는 100 그룹 구매 목록, 지금 이러한 단어 디자인 집계 페이지의 오른쪽에 다음 그림을 각 페이지 표시 10 목록, Jaccard 계수 0.3 페이지를 확인 반복, 반복 페이지를 생성 하는 방법 보다 더 큰가?
다음 그림에서는 제목 목록 (가정 긴 제목 SEO 집계 페이지 긴 제목 텍스트는 단일, 때문에 텍스트 볼륨도 큰)의 긴 제목:
각 ID는 고유, 각각 ID 및 제목 및 긴 제목 중복의 문제를 해결 하기 위해 동일한 ID 가진 목록 수 있도록 단순화 될 수 있는 단일 한 접근 될 수 있다.
각 페이지 10 목록 표시, 모든 2 개의 페이지를 가질 수 없습니다 의미 > = 3.33 ID가 같은, 즉, 22 페이지 ID 비교, 모든 Id는 다른 페이지, 1 동일 ID만 생성할 수 있습니다 2 동일 ID만 페이지를 생성할 수 있습니다 3 동일 ID만 페이지를 생성할 수 있습니다 페이지를 생성할 수 있습니다 4 Id와 같거나 더 있다면 페이지 생성 되지 않습니다.
나중 알고리즘, 기술, 검색 엔진 최적화 exchange에서 여가 시간의 대부분을 보내는 것입니다, 그리고 모든 사람에 게 공유 하는 더 좋은 것을 기대 합니다.
저기 질문 환영 DMs Chenhui Weibo: http://1.t.qq.com/chenhui8com