Time of Update: 2018-12-05
1. 歐幾裡得距離(歐氏距離)公式:歐氏距離 樸素相似性 改進1 改進2
Time of Update: 2018-12-05
從研究生畢業後加入公司工作已經兩個多月了,這兩個月以來有欣喜、有落差,但不管怎麼樣,這些都是好事,好讓我看清楚自己的不足,掌握好技術方向。我原計劃的工作是多參加些項目,在一個領域深入下去,也可以說是從碼農做起,並且不害怕加班。可是,剛開始的時候我發現事與願違。頭給我們布置的是一項調研任務,基本不用寫代碼。於是,工作頭一個月,上網搜資料、寫文檔、寫ppt、做報告、與頭溝通成了我的主要工作。頭比較熱衷調研,認為這很重要。而我一開始無法理解,覺得產品、商業方面的調研毫無技術含量,而紙上談兵式的技術架構
Time of Update: 2018-12-05
不求全,但求用好。1. string轉charchar *p=str.c_str(); //constchar *p=str.data(); //constchar *p=strdup(str); //malloc一塊記憶體,記得free。該函數由於編譯器差異可能引起free還是delete的調用錯誤,它不是標準c庫函數。推薦使用strcpychar *p=new char[str.size()];strcpy(p, str.c_str());char *p=new
Time of Update: 2018-12-05
樸素貝葉斯分類器是一種基於統計的分類器。其理論依據是貝葉斯定理(Bayes)。樸素貝葉斯分類器最典型的應用莫過於郵件過濾,也可以應用於網頁分類、使用者行為分析等領域。1. 基本概念分類是指依靠參考結構將空間中所有的資料點分成若干類。分類任務就是通過學習得到一個目標函數f,把每個屬性集x映射到一個預先定義的類標號y。也可以說是把分類分配給一個執行個體。特徵(屬性)是指任何可用來判斷內容中具備或缺失的東西。執行個體則是具體的資料點。分類、特徵、執行個體可以類比為物件導向語言中的類、屬性、執行個體。2
Time of Update: 2018-12-05
一、TF-IDFTF-IDF是資訊檢索和資料採礦中常用的一種加權技術。它是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TF詞頻(Term Frequency)指的是某一個給定的詞語在該檔案中出現的頻率。 IDF反文檔頻率(Inverse Document
Time of Update: 2018-12-05
說白了,trackback 就是 track back. trackback 的應用主要有兩種情況: 一種是文章對文章,另外一種就分類對分類。 目前,我們實現的主要是第一種,第一種也是最常見的。 大家讀一個blog文章,文章末尾附有Trackback(4)之類的, 就說明這篇文章不僅有人評論過了(可能),也被4人次(本例)Trackback過了, 點擊Trackback(4)之類的連結,你就能夠發現這4個人來自什麼地方,對主貼發表了
Time of Update: 2018-12-05
第一種:最基本的解法void bubble_sort1( int a[], int size ){bool swapped = true;int n = size;while ( swapped ) {swapped = false;for ( int i = 0; i < n - 1; i++ ) {if ( a[i] > a[i+1] ) {int tmp;tmp = a[i];a[i] = a[i+1];a[i+1] = tmp;swapped =
Time of Update: 2018-12-05
函數名: strstr 功 能: 在字串str1中尋找指定字串str2的第一次出現 用 法: char *strstr(char *str1, char *str2); strstr原型:extern char *strstr(char *haystack, char *needle); 用法:#include <string.h> 功能:從字串haystack中尋找needle第一次出現的位置(不比較結束符NULL)。
Time of Update: 2018-12-05
最大的子序列和問題:給定整數A1,A2,......,AN(可能有負數),求∑Ak(k=i...j)的最大值。(為方便起見,如果所有整數均為負數,則最大子序列和為0)例:輸入-2,11,-4,13,-5,-2時,答案為20(從A2到A4)解法一:int MaxSubsequenceSum( const int A[], int N ){int ThisSum, MaxSum, i, j, k;MaxSum = 0;for ( i = 0; i < N; i++ ) {for ( j =
Time of Update: 2018-12-05
貝葉斯分類器特點:1)貝葉斯分類計算的是屬於各種類的機率,而不是直接指派給某一類。2)所有屬性的機率共同決定分類,而不是一個或幾個屬性決定分類。3)屬性可以是離散的、連續的,也可以是混合的。特徵選取方法:貝葉斯分類器採用布爾模型,執行個體中的特徵詞不管出現多少次都表現為true,與頻率無關。而且貝葉斯中所有特徵詞一視同仁共同決定分類結果。這樣,某些並不具有代表性的詞無疑過多參與了分類決策,導致過擬合的問題。可以採用TF-IDF手段對特徵進行篩選,如TF-IDF大於閾值或取TF-IDF前50%的詞
Time of Update: 2018-12-05
1.Quick sort class : /// <summary> /// Quick sort class /// </summary> public class QuickSort { /// <summary> /// The main sort method of quick sort /// </summary> /// <param
Time of Update: 2018-12-05
// CalcPalindrome.cpp /********************************************************************created:2011/11/02file base:CalcPalindromefile ext:cppauthor:小Cpurpose:通過4位元反轉求得8位對稱數,再進行日期的正確性驗證,最後列印存在的對稱數.**************************************************
Time of Update: 2018-12-05
多層神經網路尋求的是一種在訓練線性判別函數的同時學習其非線性程度的方法;決定非線性映射的參數的學習與控制線性判別函數的參數的學習同時進行。兩層網路只能實現一個線性判決邊界,如果給出足夠數量的隱單元,三層及更多層網路就可以實現任意的判決邊界。各判決區不必是凸的或是單聯通的。多層神經網路的優點是演算法簡單,運行非線性函數的具體形式可以通過訓練樣本獲得。訓練多層網路的方法即反向傳播演算法(BP演算法),是基於誤差的梯度下降準則(LMS演算法)的一種自然延伸。神經網路是一種可以適應複雜模型的非常靈活的啟
Time of Update: 2018-12-05
0、寫在前面的話 我個人一直很喜歡演算法一類的東西,在我看來演算法是人類智慧的精華,其中蘊含著無與倫比的美感。而每次將學過的演算法應用到實際中,並解決了實際問題後,那種快感更是我在其它地方體會不到的。
Time of Update: 2018-12-05
這是spider url 隊列一環的要害之一。爬蟲必然要考慮的問題之一就是url的去重問題,很容易想到的方法是 hashmap/hashtable(md5(url)):程式退出時序列化並寫入持久介質,啟動時重新讀入,還原序列化載入記憶體。或者考慮如Berkeley
Time of Update: 2018-12-05
C語言標準庫函數名: atoi 功 能: 把字串轉換成整型數. 名字來源:array to integer 的縮寫. 原型: int atoi(const char *nptr); 函數說明: 參數nptr字串,如果第一個非空白字元不存在或者不是數字也不是加號或減號則返回零,否則開始做類型轉換,之後檢測到非數字或結束符 /0 時停止轉換,返回整型數。 #include <ctype.h>#include <stdio.h>int atoi(const
Time of Update: 2018-12-05
1求兩個單鏈表是否相交,如果相交,求出交點a:
Time of Update: 2018-12-05
1. 為什麼採用寬度優先策略Web直徑是指互連網上所有聯通網頁對的最短路徑的平均長度。一般為17左右。計算公式為d=0.35+2.06log(N)。研究表明中國的Web直徑為16.26。網頁的平均出度為25.7。顯然,互連網的深度小於寬度。種子網站一般為各大門戶網站和官方網站的首頁等。離種子網站的距離即為深度,一般情況下距離越近越重要。最後,寬度優先策略有利於多爬蟲合作抓取,抓取的封閉性較強。2.
Time of Update: 2018-12-05
倒排索引是抽象概念,倒排表、臨時倒排檔案、最終倒排檔案是具體的表現形式。全文檢索索引:1)文檔的全部關鍵字參與索引;2)檢索結果能夠提供檢索詞出現的實際位置。搜尋引擎中,網頁是資訊,關鍵詞是索引。結構化的網頁對象(包含標題、本文、URL等資訊的結構體)稱為文檔,網頁的編號稱為文檔編號。編號方法有md5,但128bit的儲存消耗還是過大,故可採用差分編碼壓縮儲存。正排索引1)LocalId 文檔的局部編號2)WordId 索引詞編號3)NHits
Time of Update: 2018-12-05
1、假設有兩個按元素值遞增次序排列的線性表,均以單鏈表形式儲存。請編寫演算法將這兩個單鏈表歸併為一個按元素值遞減次序排列的單鏈表,並要求利用原來兩個單鏈表的結點存放歸併後的單鏈表分析:此題主要考察的是在鏈表頭部增加結點與鏈表尾部增加結點的兩種區別List Union( List La, List Lb )//La,Lb分別是帶頭結點的兩個單鏈表的頭指標,鏈表中的元素值按遞增排列//本演算法實現將La,Lb合并成一個按元素之遞減排列的單鏈表{Lnode pa,pb,pTmp;pa =