特徵選取(亦即降維)是資料預先處理中非常重要的一個步驟。對於分類來說,特徵選取可以從眾多的特徵中選擇對分類最重要的那些特徵,去除原資料中的噪音。主成分分析(PCA)與線性判別式分析(LDA)是兩種最常用的特徵選取演算法。關於PCA的介紹,可以見我的另一篇博文。這裡主要介紹線性判別式分析(LDA),主要基於Fisher Discriminant Analysis with Kernals[1]和Fisher Linear Discriminant Analysis[2]兩篇文獻。
using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Windows.Forms;namespace DisplayMemberValueMember{ public partial class Form1 : Form
最近要處理使用者訪問日誌,需要從HIVE中取資料,寫了一些HIVE QL,有一點小感想,記錄在此。 1. 暫存資料表 在HIVE中進行多表串連時,可以給一些暫存資料表命名,這樣有助於理清查詢語句之間的邏輯,格式為: #將從table表中取出的a,b列組成的暫存資料表命名為t(SELECT a,b FROM table) t 在一些情況下,必須採用命名暫存資料表的方法,比如我們在處理日誌時,可能希望從日誌的某個欄位中抽取出某些有用的資訊X,然後對X進行分組(GROUP BY
排序一直是資訊檢索的核心問題之一,Learning to Rank(簡稱LTR)用機器學習的思想來解決排序問題。LTR有三種主要的方法:PointWise,PairWise,ListWise。ListNet演算法就是ListWise方法的一種,由劉鐵岩,李航等人在ICML2007的論文Learning to Rank:From Pairwise approach to Listwise Approach中提出。
本文主要基於同名的兩篇外文參考文獻A Tutorial on Principal Component Analysis。 PCA,亦即主成分分析,主要用於對特徵進行降維。如果資料的特徵數非常多,我們可以認為其中只有一部分特徵是真正我們感興趣和有意義的,而其他特徵或者是噪音,或者和別的特徵有冗餘。從所有的特徵中找出有意義的特徵的過程就是降維,而PCA是降維的兩個主要方法之一(另一個是LDA). Jonathon
本文主要基於Anand Rajaraman和Jeffrey David Ullman合著,王斌翻譯的《大資料-互連網大規模資料採礦與分散式處理》一書。 KMeans演算法是最常用的聚類演算法,主要思想是:在給定K值和K個初始類簇中心點的情況下,把每個點(亦即資料記錄)分到離其最近的類簇中心點所代表的類簇中,所有點分配完畢之後,根據一個類簇內的所有點重新計算該類簇的中心點(取平均值),然後再迭代的進行分配點和更新類簇中心點的步驟,直至類簇中心點的變化很小,或者達到指定的迭代次數。