S4: Yahoo!的分布式StreamCompute平台

  最近讀了一下Yahoo!關於S4的論文 S4: Distributed Stream Computing Platform,隨便做點筆記,歡迎大家批評指正: 

機器學習-特徵選取(降維) 線性判別式分析(LDA)

  特徵選取(亦即降維)是資料預先處理中非常重要的一個步驟。對於分類來說,特徵選取可以從眾多的特徵中選擇對分類最重要的那些特徵,去除原資料中的噪音。主成分分析(PCA)與線性判別式分析(LDA)是兩種最常用的特徵選取演算法。關於PCA的介紹,可以見我的另一篇博文。這裡主要介紹線性判別式分析(LDA),主要基於Fisher Discriminant Analysis with Kernals[1]和Fisher Linear Discriminant Analysis[2]兩篇文獻。 

Learning to Rank 簡介

文章目錄 1.1 相關度排序模型(Relevance Ranking Model)1.2 重要性排序模型(Importance Ranking Model)1). PointWise L2R 2). Pairwise L2R3). Listwise L2R  參考文獻:   去年實習時,因為項目需要,接觸了一下Learning to

combox的DispalyMember和ValueMember屬性的測試

using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Windows.Forms;namespace DisplayMemberValueMember{ public partial class Form1 : Form

MFC隨筆2.17

1.MFC類庫為提供了CWnd::GetDlgItem函數,可以用它將ID轉化成一個CWnd指標,如果需要把CWnd指標轉化成一個控制項ID,則可以使用MFC中CWnd類的GetDlgCtrlID成員函數 2.如果想顯示文本,可以利用對話方塊編輯器來建立一個具有特殊ID的空的靜態控制項,然後再在對話方塊的成員函數中(如OnInitDialog)調用CWnd::SetDlgItemText函數,以便在該控制項中顯示文本   

HIVE QL 雜記

  最近要處理使用者訪問日誌,需要從HIVE中取資料,寫了一些HIVE QL,有一點小感想,記錄在此。  1. 暫存資料表  在HIVE中進行多表串連時,可以給一些暫存資料表命名,這樣有助於理清查詢語句之間的邏輯,格式為: #將從table表中取出的a,b列組成的暫存資料表命名為t(SELECT a,b FROM table) t  在一些情況下,必須採用命名暫存資料表的方法,比如我們在處理日誌時,可能希望從日誌的某個欄位中抽取出某些有用的資訊X,然後對X進行分組(GROUP BY

機器學習-核Fisher LDA演算法

  本文在我的上一篇博文 機器學習-特徵選取(降維) 線性判別式分析(LDA) 的基礎上進一步介紹核Fisher LDA演算法。  之前我們介紹的LDA或者Fisher LDA都是線性模型,該模型簡單,對噪音的魯棒性較好,不容易過擬合,但是,簡單模型的表達能力會弱一些,為了增加LDA演算法的表達能力,我們可以將資料投影到非線性方向上去。為了達到這個目的,我們可以先將資料非線性投影到一個特徵空間F內,然後在這個F空間內計算Fisher 線性判別式,達到降維的目的。  首先介紹一下核函數的概念: 

Elo Rating System

  很多遊戲都需要用到打分系統,比如11平台的天梯,魔獸世界的競技場,還有國際象棋。Elo Rating System就是一個用來計算二人(或兩個團隊)競技遊戲中各個選手(團隊)等級的演算法。該演算法由匈牙利裔美籍物理學家Arpad Elo發明。 

MFC隨筆2.18

1.對於無強制回應對話方塊,一定要注意不要調用CDialog::OnOK或CDialog::OnCancel函數,也就是活必須在衍生類別中重載這些虛函數;否則,當使用Esc鍵、斷行符號鍵、或按一下滑鼠某按鈕時,就會激發對相應基類函數的調用,進而導致調用Windows的EndDialog函數,而EndDialog函數只適合強制回應對話方塊。對於無強制回應對話方塊,必須調用DestroyWindow函數。如果需要的話,還必須調用UpdateData函數來將資料從對話方塊控制項中傳到類資料成員中。

DataGridView DataGridViewCheckBoxColumn編輯時即時觸發事件

正常響應CellValueChanged()事件時,當改變checkbox狀態時,只有當焦點離開該儲存格時才能觸發CellValueChanged()事件,如果要改變checkbox值時即時觸發CellValueChanged()事件,需要借用CurrentCellDirtyStateChanged()事件來提交未提交控制項的更改。  private void dataGridView1_CurrentCellDirtyStateChanged(object sender,

基於Elo Rating System的三國演義武將排名

  Elo Rating System是國際象棋用來給選手打分的一個演算法,詳情見Elo Rating System。  我們可以用這個演算法對三國中的武將進行打分,然後排名。資料來源為三國武將對戰記錄,摘錄其中幾條記錄如下:  張飛VS鄧茂 零合,飛一槍刺死茂。  關羽VS程遠志 零合,羽一刀揮遠志為兩段。  張飛VS高升 不數合,飛刺高升墜馬。    孫堅VS趙弘 堅從城上飛身取弘,手奪弘槊,直刺下馬。  華雄VS鮑忠 零合,忠欲退,被雄手起刀落,斬於馬下。  程普VS胡軫

偏置-方差分解(Bias-Variance Decomposition)

  本文地址為:http://www.cnblogs.com/kemaswill/,作者連絡方式為kemaswill@163.com,轉載請註明出處。  機器學習的目標是學得一個泛化能力比較好的模型。所謂泛化能力,是指根據訓練資料訓練出來的模型在新的資料上的效能。這就牽扯到機器學習中兩個非常重要的概念:欠擬合和過擬合。如果一個模型在訓練資料上表現非常好,但是在新資料集上效能很差,就是過擬合,反之,如果在訓練資料集和新資料集上表現都很差,就是欠擬合,如所示 

ListNet 演算法簡介

  排序一直是資訊檢索的核心問題之一,Learning to Rank(簡稱LTR)用機器學習的思想來解決排序問題。LTR有三種主要的方法:PointWise,PairWise,ListWise。ListNet演算法就是ListWise方法的一種,由劉鐵岩,李航等人在ICML2007的論文Learning to Rank:From Pairwise approach to Listwise Approach中提出。 

時間序列挖掘-預測演算法-三次指數平滑法(Holt-Winters)

  在時間序列中,我們需要基於該時間序列當前已有的資料來預測其在之後的走勢,三次指數平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)演算法可以很好的進行時間序列的預測。  時間序列資料一般有以下幾種特點:1.趨勢(Trend)  2. 季節性(Seasonality)。  趨勢描述的是時間序列的整體走勢,比如總體上升或者總體下降。所示的時間序列是總體上升的:  季節性描述的是資料的周期性波動,比如以年或者周為周期,如: 

PCA演算法 原理與實現

  本文主要基於同名的兩篇外文參考文獻A Tutorial on Principal Component Analysis。  PCA,亦即主成分分析,主要用於對特徵進行降維。如果資料的特徵數非常多,我們可以認為其中只有一部分特徵是真正我們感興趣和有意義的,而其他特徵或者是噪音,或者和別的特徵有冗餘。從所有的特徵中找出有意義的特徵的過程就是降維,而PCA是降維的兩個主要方法之一(另一個是LDA).  Jonathon

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

  本文主要基於Anand Rajaraman和Jeffrey David Ullman合著,王斌翻譯的《大資料-互連網大規模資料採礦與分散式處理》一書。  KMeans演算法是最常用的聚類演算法,主要思想是:在給定K值和K個初始類簇中心點的情況下,把每個點(亦即資料記錄)分到離其最近的類簇中心點所代表的類簇中,所有點分配完畢之後,根據一個類簇內的所有點重新計算該類簇的中心點(取平均值),然後再迭代的進行分配點和更新類簇中心點的步驟,直至類簇中心點的變化很小,或者達到指定的迭代次數。 

Inno Setup提示

Inno Setup提示一.關於Inno Setup如何在安裝時播放音樂方法(1):在指令碼編譯裡的[Code]與[Files]段處添加以下代碼:[Code]Function mciSendString(lpszCommand: String; lpszReturnString: Integer; cchReturnLength: Integer; hwndCallback: Integer): Integer;external 'mciSendStringA@winmm.dll

Hadoop Streaming 簡介

  Hadoop是用Java實現的,但是我們也可以使用其他語言來編寫MapReduce程式,比如Shell,Python,Ruby等,下面簡單介紹一下Hadoop Streaming,並使用Python作為例子。  1. Hadoop Streaming  Hadoop Streaming的使用方式為:1 hadoop jar hadoop-streaming.jar -D property=value -mapper mapper.py -combiner combiner.py

MFC隨筆 1.30

View Code 1 void CMyView::OnLButtonDown(UINT nFlags,CPoint point)2 {3 CRect rect4 CDC* pDC=GetDC();//通過調用CWnd的GetDC成員函數來獲得裝置環境的指標5 pDC->GetClipBox(rect);6 RealeaseDC(pDC);//必須調用ReleaseDC函數釋放裝置環境7 } 1 void CMyView::OnLbuttonDown(UINT

相關性分析 -pearson spearman kendall相關係數

 相關性分析 -pearson spearman kendall相關係數   先說獨立與相關的關係:對於兩個隨機變數,獨立一定不相關,不相關不一定獨立。有這麼一種直觀的解釋(不一定非常準確):獨立代表兩個隨機變數之間沒有任何關係,而相關僅僅是指二者之間沒有線性關係,所以不難推出以上結論。  衡量隨機變數相關性的方法主要有三種:pearson相關係數,spearman相關係數,kendall相關係數:  1. pearson相關係數,亦即皮爾遜相關係數 

總頁數: 61357 1 .... 12191 12192 12193 12194 12195 .... 61357 Go to: 前往

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.