Microblogging 추천 알고리즘을 도입 하기 전에 추천 시스템 및 권장된 알고리즘에 대해 얘기 하자. 몇 가지 질문이 있다: 어떤 시나리오 추천 시스템에 적용 합니까? 문제는 무엇 이며 어떤 값은 그들은 해결 하는 데 사용? 효과 어떻게 측정?
추천 시스템 매우 일찍 태어난 하지만 정말 전기 사업의 번영으로 소셜 네트워크와 "Taobao"의 상승으로 "페이스 북"에서 유래 모두 반환 되었다, "선택"의 시대, 정보 및 훌륭한 부의 항목 그래서 광대 한 우주의 작은 점, 손실에 같은 사용자. 추천 시스템은 사용자에 게 가까이 되 고, 폭발에 도입:
는 신속 하 게 업데이트 정보, 사용자 커뮤니티의 지혜를 사용 하 여 현재 핫스팟 이해 필요가 있도록. 정보 매우 높은 맞춤된 정보 획득 비용이 비정상적 이다, 필터링에 대 한 액세스 유용한 정보 효율적이 지 않습니다. 대부분의 경우, 사용자의 요구 개인 똑, 어려운가 "나는 오늘 내 취향이 일치 하는 가격 근처 레스토랑을 찾이 필요" 같은.
여전히 추천 시스템에 대 한 응용 프로그램 시나리오의 많은 그리고 주요 문제는 사용자에 대 한 오른쪽 항목 (연결 및 정렬)을 찾아서 권장된 결과 설명 하는 합리적인 이유를 찾을 것입니다. 그리고 문제의 솔루션은 시스템의 값 즉, 연결을 설정 하는 흐름을 촉진 및 확산, 적자 가속.
추천 알고리즘 방법 이며 추천 시스템의 목표를 실현 하는 것을 의미 합니다. 알고리즘 및 제품 결합, 효율적이 고 안정적인 구조에 그것의 최대 효과 재생할 수 있습니다.
다음 우리 microblogging 추천, 마이크로-블로그 자신의 제품 디자인에 대 한 이야기, 추천 없이 시스템, 여전히 것 이다 있도록 정보;의 급속 한 보급을 달성 하는 큰 사용자 관계 네트워크를 형성 하 고 것의 가치를 측정 하는 간단한 방법은 비교 하 고 그것을 유지 하 고 그것을 제거 하는 것의 차이 보면. Weibo 건강 사용자 관계 네트워크 품질이 낮은 정보의 보급을 통해 스트림, 그리고 높은 품질 정보 흐름에 대 한 필요를 신속 하 게, 피드 사용자의 품질을 보호 하기 위해 필요 합니다. Weibo 추천의 역할은 과정을 빠르게 하는 가속기와 컨트롤러 Weibo의 역할은 특정 상황에서 정보 흐름을 제어.
마지막으로 마이크로 블로그를 다시 알고리즘, 순전히, 위의 rip 그냥 microblogging 추천 알고리즘을 누구나 더 나은 이해를 허용 하도록 권장 합니다. 우리의 직업 다양 한 목표와 해결 될 필요가 있는 문제를 해결 하기 위해 데이터 도구 샘플 일련의 수학 문제를 사용 하는 것입니다.
다음 단계는 방법과 기술을 우리가 사용 하 고 다음 그들을 소개 하는 것을 통해 빗.
재단 및 협회 알고리즘
이 알고리즘의 주요 역할 필요한 기본 자원을 채광 하는 것이 좋습니다, 추천 때 일반적인 기술 문제를 해결 하 고 권장된 사업에 대 한 지침을 제공 하기 위해 필요한 데이터 분석을 완료 하는 것입니다.
이 섹션에서는 일반적으로 사용 되는 기술과 알고리즘은 다음과 같습니다.
단어를 세분화 기법 및 핵심 단어 추출
구조화 된 벡터에 마이크로 블로그의 콘텐츠를 변환 하는 데 사용 되는 Weibo의 콘텐츠 추천의 기초 단어를 세분화, 단어 정보 태그, 콘텐츠 핵심 단어/엔터티 단어 추출, 의미 종속성 분석, 등 포함.
분류 및 스팸 방지
마이크로-블로깅 콘텐츠 분류를 포함 하 여 및 광고/포르노 마이크로 블로그 인식; 마케팅 microblogging 콘텐츠에 대 한 권장된 후보자의 분석
콘텐츠 분류는 3 분류 체계, 148 범주 및 광고/포르노 microblogging, 베이지안 및 최대 엔트로피의 하이브리드 모델을 사용 하 여 마케팅의 인식으로 나누어져 있는 의사 결정 트리 분류 모델에 의해 실현 된다.
클러스터링 기술
그것은 뜨거운 주제 마이닝을 위해 주로 사용 하 고 콘텐츠 추천에 대 한 리소스 관련. WVT 알고리즘 (워드 벡터 항목), 마이크로 블로그의 개발과 연구에 속하는 특성 및 Weibo의 전파 규칙에 따라 설계 되었습니다.
통신 모델과 사용자 영향 분석
마이크로 블로깅 전파 모델 연구 및 사용자 네트워크 영향 분석 (깊이 영향, 폭 영향 및 도메인 영향 포함)을 실시 합니다.
주요 권장된 알고리즘 1입니다. 그래프 기반 추천 알고리즘
Weibo는 사용자 기여 콘텐츠, 소셜 전송 및 정보 보급의 폭발의 특성이 있다. 업계의 일반적인 메모리 기반 알고리즘 보다는 그래프 기반 추천 알고리즘으로 알려진, 주요 이유는:
우리의 권장된 알고리즘 디자인 소셜 네트워킹을 바탕으로, 핵심 포인트는 최고의 권장된 결과 함께 사용자를 제공 하는 데이터의 다양 한 종류의 포괄적인 사용 정보 보급 모델에 소셜 네트워크에서 시작 하는; 예를 들어, 많은 경우에, 우리는 그냥 키 링크 정보 보급에 필요한 권장된 규칙, 추가 정보 보급 채널 변경 후속 전송 자연스럽 게 원래 네트워크 따라 펼쳐집니다. (우리가 부르는 추세) 피드 스트림 추천 우리의 가장 중요 한 제품 이며 결과 사용자 관계를 포함 해야 합니다.
그래프의 거시적인 관점에서 우리의 목표는 높은 값 사용자 관계 네트워크, 높은-품질 정보의 신속한 보급을 촉진 하는 피드 흐름 품질 향상, 중요 한 일은 키 노드 광업, 키 노드-지향 콘텐츠 추천, 추천 사용자를 설정 하는.
다음 표에서 같이 적절 한 빗을 알고리즘의이 부분:
여기 어려움은 계량 하 고 그래프의 "가장자리", 여러 "가장자리"와 "노드"의 종합 득점 계산 및 네트워크 마이닝 분석의 결과의 융합에 따라 선택 하는 방법.
알고리즘 연구와 개발, 다음 데이터 연결 된 제품의 출력의이 부분:
2입니다. 내용 기반 추천 알고리즘
콘텐츠 기반 가장 일반적으로 사용 되는 기본 추천 알고리즘 Weibo 추천, 및 그것의 주요 기술 링크 이며 후보 집합의 내용 구조 분석 및 상관 관계 계산 이다.
본문 페이지 관련된 추천은 가장 널리 사용 되는 배치의 콘텐츠를 기반으로, 예를 들어, 짧게 말
콘텐츠 분석에 점의 많은 2 곳에 초점을 맞추고, 위에서 설명한 되었습니다.
콘텐츠 품질 분석, 주로 종합적으로 계산을 사용 하 여 마이크로 블로그 노출 이익 + 콘텐츠 정보/방법의 가독성. 마이크로 블로그 노출은 사용자 그룹 행동의 사용, 콘텐츠 정보 계산은 비교적 간단한, 즉, microblogging 키워드의; 콘텐츠 가독성의 측정에 대 한 IDF의 정보 반복, 우리 할 작은 분류 모델, 각각, 훈련 샘플으로 더 나은 가독성 읽기 쉬운 구어체 코 퍼스와 뉴스 모음 새로운 microblog의 좋은 가독성의 확률은 다양 한 단어와 배치 정보를 추출 하 여 계산 됩니다. 단어 확장, 콘텐츠 기반의 효과 콘텐츠 분석의 깊이에 따라 달라 집니다. 마이크로 블로그 콘텐츠는 상대적으로 짧은, 키를 추출할 수 있는 정보는 상대적으로 작은, 권장된 회 무게;의 정확도 의해 발생 하는 스파스 데이터 인해 쉽게 관련된 작업을 할 우리 다음 단어 클러스터링 작업, 수행이 기준 단어 확장의 효과 최적화 하기 위해 Word2vec 기술 도입 권장된 리콜 속도 그리고 동기화 업그레이드의 정확도 속도.
상관 관계 계산의 기술 포인트는 벡터 양자화와 거리 통계, 우리가 일반적으로 두 가지 방법을 사용 하 여 "TF * IDF 무게 양자화 + 코사인 거리" 또는 "주제 확률 + kld 거리".
3입니다. 모델 기반 추천 알고리즘
중국의 가장 큰 소셜 미디어 제품, Weibo 사용자 및 정보 자원의 거 대 한 수가 있다;이 추천 2 도전 포즈:
소스 퓨전 및 시퀀싱
후보 대단히 풍부 하다, 우리는 더 많은 옵션, 그래서 결과 2 개의 층에서 생산 하는 것이 좋습니다 의미: 사용자 커뮤니티 행동 뒤에 규칙을 배우고 기계 학습 모델 소개 시켜야 하는 다양 한 기본 및 소스 퓨전 시퀀싱, 더 객관적이 고 정확한 결과 얻기 위해에 대 한 추천 알고리즘의 선택.
동적 콘텐츠 분류 및 의미
마이크로 보 UGC 및 정보 확산과 신속 하 게, 갱신 하는 특성의 콘텐츠 생산 모드의 정적 분류 모델 훈련 방법은 이미 오래 된, 우리는 클래스에 최근 총 정보 집계 다음 의미 상관 관계 및 완전 한 추천 좋은 클러스터링 모델을 필요 의미 합니다.
모델 기반 알고리즘은 위의 문제를 해결 하기 위해, 다음은 두 개의 가장 중요 한 기계 학습 작업:
3.1 클릭률/rpm (당 천 권장된 관계 속도) 예측 모델, 사용 되는 기본 알고리즘은 로지스틱 회귀, 아래 우리의 클릭률 예상 모델은 전반적인 아키텍처 다이어그램:
작품의이 부분에는 샘플 선택, 데이터 정리, 특징 추출 및 선택, 모델 교육, 온라인 견적 및 시퀀싱 포함 되어 있습니다. 모델 훈련 전에 데이터 청소 및 잡음 제거는 매우 중요 한 데이터 품질은 알고리즘 효과의 상한, 우리는 손실 전에이 이곳에서 되었습니다 언급 가치가 있다.
Logisitic 회귀는 2 분류 확률 모델
최적화의 목표는 "샘플의 정확한 분류 확률의 곱셈 값"을 극대화 하; 학습 플랫폼 야 후에 의해 개발 된 Vowpal_wabbit 기계를 사용 하 여 모델 정밀 솔루션의 최적화 과정을 완료 하는 우리.
3.2 LFM (잠재 요소 모델): LDA, 행렬 분해 (svd + +, SVD 기능)
LDA는 2014 프로젝트의 초점 이다, 더 나은 출력 되었습니다 하지만 또한 권장된 온라인 제품에 적용 된, Lda 자체는 매우 아름 답 고 엄격한 수학적 모델, 그리고 여기 참조용 으로만 우리의 LDA 항목의 예입니다.
행렬 분해에 관해서는 2013 때 해당 시도, 효과 특히 이상적인 투자를 계속 하지 않았다.
의미 체계 모델 높은 권장된 정밀도로 단일 모델 이며 어려움을 계산 효율 병목 데이터가 큰 때. 우리이 자리에 몇 가지 작업을 했 고 일부 학생 들이이 하나를 소개 합니다.
하이브리드 기술
머리 상단 제갈량, 각 방법의 한계, 서로 다른 알고리즘, 재생 값, 매우 효과적인 방법 이다. 마이크로 블로그 추천 알고리즘은 주로 다음과 같은 하이브리드 기술을 사용 하 여:
시간 시리즈 혼합:
즉, 추천 과정의 다른 시간 동안에서 다른 추천 알고리즘을 채택, 본문 페이지 노출, 콘텐츠 기반을 사용 하 여 +의 클릭률 예측 방법이 권장된 결과 신뢰할 수 있는 사용자 클릭의 사용자 기반 사용 후 생성의 금액을 생성 하는 초기 단계에서 예를 들어, 메인 페이지의 추천을 받아 다음 그림에서와 같이 협업 필터링 방법이 권장된 결과를 가져옵니다.
이 방법에서는, 콘텐츠 기반의 사용은 콜드 시작 문제를 해결 하 고 1 + 1을 달성 하기 위해 사용자 기반 CF의 역할을 발휘 하는 아주 좋은 > 2 효과.
레이어 블렌딩 모델:
대부분의 경우에서 모델 매우 좋은 원하는 결과 얻을 수 없습니다 및 계층된 조합 종종 더 나은 결과 얻을 것, 계층된 모델 믹스는 "깡통 추천 작업을 완료 하 포괄적인 훈련 모델의 기본 모델로 모델 출력의 상위 계층." 예를 들어 홈 페이지의 오른쪽에 클릭률 경우 계층적 로지스틱 회귀 모델의 기능 및 샘플 크기의 자연 감소와 노출 위치에 의해 발생 하는 효과 편차 차이의 문제를 해결 하기 위해 사용 됩니다.
폭포 믹스:
즉, 레이어-의해-단계 필터링 방법을 사용 하 여 매우 풍부한 추천 후보자의 경우 우리 일반적으로 전면에 신속 하 고 낮은 차별의 알고리즘, 많은 후보 집합의 선택을 완료 하 고 뒤로, 느린 동작 및 높은 구별도 알고리즘을 넣어 넣고 나머지의 작은 컬렉션을 계산,이 종류의 하이브리드 기술이 매우 간단 하다. 우리는 다양 한 경량 알고리즘을 사용 하 여 거친 선택의 후보 집합을 완료 하 고 클릭률 견적을 사용 하 여 구체화 정렬, 혼합의이 종류 microblog 추천에 광범위 하 게 사용 됩니다.
크로스 혼합:
추천 알고리즘 중성자 기술의 각 종류 인스턴스 콘텐츠 기반 상관 관계 계산에 누적 거리 계산 방법, 협업 필터링 양자화 계산에 아주 잘 적용 될 수 있습니다 다른 추천 알고리즘 합성 사용에서 수 있습니다. 실용적인 예제로 우리 벡터 컴퓨팅 사용자 추천에 성공적으로 적용 된 LDA에 축적 하는 방법을 공부 합니다.
온라인 및 오프 라인
Weibo (대규모, 다양 한, 정적 및 동적 데이터 혼합 함께), 데이터의 특성 결정 권장된 제품 결과의 대부분을 사용 하 여 온라인 및 오프 라인 계산 완료 해야 했다. 관점에서 시스템 및 알고리즘 디자인의, 이것은 "무거운"과 "빛" 문제, 계산 분해와 조합 열쇠입니다, 그리고 우리는 시간을 구분 하지 않는 무거운 컴퓨팅 오프 라인 쪽에 시간 민감한 빛 빠른 계산 온라인 끝에 넣어 필요가. 우리의 일반적인 방법 중 몇 가지는 다음과 같습니다.
온라인 빠르게 결과; 간단 하 고 신뢰할 수 있는 알고리즘을 필요로 합니다.
반된 제품에는 다음과 같은 3 형태
1 계산 프로세스 분해 사용자 기반 CF에 사용자 유사성 등의 오프 라인 부분 데이터베이스 사용자 기반 추천 완료를 통해 읽은 후 온라인.
2 고품질 후보와 같은 콘텐츠 후보 본체 페이지의 설정, 인덱스를 통해 온라인 다음 상관 관계를 통해 데이터를 가져오는 추천 결과 생성 하는 CTR 견적 정렬 오프 라인 광산의 설정.
3 권장된 결과 집합, 오프 라인 계산 좋은 팬 비슷한 높은 사용자, 등을 실시간 피드백, 실시간 추가 추천와 그것의 단지 사용자에 사용자에 게 유사한 온라인 사용자 행동의 더 높은 유사성이 있다.
정적 추천 결과, 우리의 사용자 권장 오프 라인 컴퓨팅에서 95%의 결과 같은 권장된 항목에 연결 된 약간의 시간을 말합니다. 기계 학습 모델,이 해체의 타이밍에 계산 프로세스 이며 오프 라인 모델을 학습, 온라인 전화, 물론, 주문 항목을 완료 하는 모델 모델 실시간 업데이트를 완료 하려면 온라인 학습 또는 실시간 기능 값 수 완료. 동시에 온라인 계산, 오프 라인 및 온라인 환경의 일관성을 보장 하기 위해 완료의 누락 기능 가치에 관심을 지불할 필요 모델.
또한, 우리는 또한 직접 온라인 계산 차이의 주제에 사용자 매우 작습니다, 그것은 기본적으로 수요, 하지만 인기 있는 마이크로 보의 목록 수도 세련 된 디자인, 우리는 동적 노출 모델을 채택 하기 때문에, 오른쪽에 권장 하는 주제 같은 권장된 결과 있다 항목 노출 확률, 매우 좋은 결과 달성된의 다음 기간을 제어 하는 시간 (클릭 수입 노출 비용)의 마지막 기간을 통해 클릭률과 전환 양의 3 배 이상 배 업그레이드.
추천 결과, 다른 추천 이유로 보충의 다른 종류는 프레 젠 테이 션 시도 및 프런트 엔드에 오프 라인 로그 분석의 다양 한이 필요 합니다.
효과 평가
알고리즘의 효과 측정 하는 방법은 모두의 노력의 방향을 결정 하 고 다양 한 종류의 권장, 위치 및 목표는 제품의 작업 결과 측정 하는 다른 표준 시스템을 사용 하는. 평가의 실제 효과 3 수준으로 분할 된다: 사용자 만족도, 제품 레이어 지표 (예: CTR), 알고리즘 레이어 지표, 효과 평가 인공 평가, 온라인 A로 분할 될 것 이다 / b 테스트, 오프 라인 알고리즘 평가 3.
제품 표시기의 공식 제품 기대를 반영 하는 고객 만족의 목표를 기반으로 해야 합니다.
알고리즘의 오프 라인 평가 대 한 키 알고리즘 오프 라인 평가 항상 앞 라인, 더 나은 할 해당 알고리즘의 결과의 최적화 될 수 있습니다 더 나은 때문에 제품 레이어 인덱스에 맞게 합리적인 알고리즘 평가 색인의 세트를 찾아내기 위하여 온라인 제품 표시기로 변환입니다.
아래 다이어그램은 우리의 알고리즘 오프 라인 효과 평가의 아키텍처 다이어그램
일반적으로 사용 되는 오프 라인 평가 지표: RMSE, 리콜, AUC, 사용자, 사용자의 다양성, 참신 성과. 다른 제품에 대 한 측정 지표의 다른 조합을, 사용자 같은 "사용자 다양성"에 추천은 매우 중요 하지만 뜨거운 주제 결과 사이 오버랩의 큰 학위를가지고 사용자가 허용할 수 있다.