Time of Update: 2018-12-04
cygwin是一個在windows平台上啟動並執行unix類比環境,是cygnus solutions公司開發的自由軟體。它對於學習unix/linux作業環境,或者從unix到windows的應用程式移植,或者進行某些特殊的開發工作,尤其是使用gnu工具集在windows上進行嵌入式系統開發,非常有用。 cygwin的下載安裝:http://blog.csdn.net/Lionwoo/archive/2005/08/06/446964.aspx下載或安裝中止的解決方案:http://blog.
Time of Update: 2018-12-04
Nutch是最早用MapReduce的項目 (Hadoop其實原來是Nutch的一部分),Nutch的plugin機制吸取了eclipse的plugin設計思路。在Nutch中 MapReduce編程方式佔據了其核心的結構大部分。從插入url列表(Inject),產生抓取列表(Generate),抓取內容(Fetch), 分析處理內容(Parse),更新Crawl DB庫(Update
Time of Update: 2018-12-04
(一)Robots Exclusion Protocol協議簡介 當Robot訪問一個Web網站時,比如http://www.some.com/,它先去檢查檔案http://www.some.com/robots.txt。如果這個檔案存在,它便會按照這樣的記錄格式去分析: User-agent:*Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/ 以確定它是否應該檢索網站的檔案。這些記錄是專門給Web
Time of Update: 2018-12-04
tomcat在啟動時出現如下異常問題: 嚴重: IOException while loading persisted sessions: java.io.EOFException 嚴重: Exception loading sessions from persistent
Time of Update: 2018-12-04
MyEclipse 中對 jquey.js 裡的語句提示錯誤了,這是由於MyEclipse對其文法要求相當嚴格所造成的,而這些檔案本身是可以運行並沒有什麼錯誤的,在你實際應用部署中並無影響。可以不用管它,照樣部署運行。 可是一直有這樣的錯誤提示總是很煩的,可以取消這些提示,右鍵——>點擊MyEclipse功能表項目的Exclude From Validation,可對選中的項目設定不作驗證。可是之前已有的錯誤提示不會消失。據說 MyEclipse 裡的 Remove All
Time of Update: 2018-12-04
簡介: 本文介紹網路銀行所普遍採用的安全技術和方案,將從資料和商務邏輯的兩個角度詳細地分析一般網路銀行系統的安全需求,並據此引入以 PPDRR 為安全模型的安全設計方案。通過閱讀本文,讀者不但可以瞭解網上銀行普遍採用的安全系統架構以及相關技術,而且對開發實際安全應用系統具有一定的指導意義。摘要隨著中國加入 WTO,外國銀行進入中國市場,國內銀行的業務越來越多的移植到網路銀行上,因此網上銀行的需求日益增加。但是 Internet
Time of Update: 2018-12-04
在Java中,你只能繼承一個類,但實現多個介面。所以你繼承一個類的時候就無法再繼承別的類了。 介面是用來代表形容詞或行為,例如Runnable、Clonable、Serializable等。因此,如果您使用一個抽象類別來定義(實現)Runnable和Clonacle,你就不可以使你的類同時實現這兩個功能,而如果介面的話就沒問題.
Time of Update: 2018-12-04
在tomcat中使用定時器,並且定時器在tomcat啟動時跟著啟動,停止時也隨著停止,這時使用listner。見代碼:package listener;import java.util.Timer;import javax.servlet.ServletContextEvent;import javax.servlet.ServletContextListener;import realbow.timer.JobTimer;public class TimerListner
Time of Update: 2018-12-04
原版nutch中對中文的處理是按字劃分,而不是按詞劃分,我們可以為其添加一些中文分詞外掛程式,例如IKAnalyzer。參看了網上很多教程,最後也沒能成功,最後綜合了幾個教程的內容,最終成功。首先作以下幾點說明,以方便理解:(1)目前,Nutch中文分詞方式大致有兩種方式:一是修改原始碼。這種方式是直接對Nutch分詞處理類進行修改,調用已寫好的一些分片語件進行分詞。二是編寫分詞外掛程式。這種方式是按照Nutch定義的外掛程式編寫規則重新編寫或者添加中文分詞外掛程式。以上兩種方式都是可取的。
Time of Update: 2018-12-04
Map結構的集合類:HashMap和Hashtable HashMap集合類和ArrayList最大的不同在於,儲存物件的方式不同,ArrayList僅僅是對對象進行編號,然後順序儲存,尋找的時候一個個找就行了,HashMap則不同,它是用一個號碼去對應一個對象,這個號碼是任意的使用者指定的,以此形成一個索引值對key——value,這樣的話尋找起來就有個問題了,必須知道key值才能去得到一個對象,但是這個問題用迭代器得到瞭解決,代碼如下://HashMap的使用package com.test
Time of Update: 2018-12-04
代碼:/*** 中文到unicode編碼的轉換*/public class UnicodeTest {public static void main(String[] args) { String cn = "懷念外婆屋後的柚子樹"; System.out.println(cnToUnicode(cn)); // 字串 : \u5f00\u59cb\u4efb\u52a1 ,由於 \ 在java裡是逸出字元,要寫出下面這種形式 String unicode =
Time of Update: 2018-12-04
Nutch構建好了一種搜尋引擎架構,在此基礎上可以進行二次開發,實現個人規模的搜尋引擎、企業區域網路搜尋引擎、對整個WEB的搜尋引擎等不同規模的搜尋引擎。另外還可以為達到一些特殊的目的建立起的搜尋引擎。不論是建立何種規模的搜尋引擎,一般情況下都需要對其進行二次開發,對原始碼進行相應的功能性修改。通過本次實驗,我們總結出一些二次開發中的重點環節,這裡做一個大致的描述。1.1 資訊源選擇及規範制定 對資訊源的選擇可以反映出搜尋引擎的業務範圍:如果選擇某一個網站或者網站群,那麼它是一個
Time of Update: 2018-12-04
數組的功能確實很強大很好用,但是現在又這樣一個問題,要求管理公司的所有職員,當有新員工加入的時候就將其資訊添加進去,有人離開的時候將其資訊刪除,也就是說這是一個動態管理過程,用數組的話不知道應該給數組開多大空間,大了會浪費,小了以後會不夠用,於是集合類的動態特性就派上用場了,ArrayList集合的管理過程是:建立之後沒怎麼用空間,但是每加入一個對象它都會將對象的地址引用加在自己記憶體空間的後面,按順序編號,程式如下:package com.test;import
Time of Update: 2018-12-04
1.字元編碼 目前微型機中普遍採用的字元編碼是ASCII碼。它是用七位位元對127個字元進行編碼,其中前32個是一些不可列印的控制符號。 2.漢字編碼及字模資訊 漢字有兩種編碼:國標碼與機內碼。
Time of Update: 2018-12-04
nutch1.2 修改jsp頁面後,想打包部署到tomcat中,有幾個地方需要修改的。 其中一個地方,當然是搜尋的索引路徑了. nutch-site.xml <property> <name>searcher.dir</name> <value>F:/nutch/test</value> </property>
Time of Update: 2018-12-04
nutch1.2的search.jsp中有一句:<%@ taglib uri="http://jakarta.apache.org/taglibs/i18n" prefix="i18n" %>錯誤提示為:找不到標籤庫。 修改:在WEB-INF中的web.xml中添加如下代碼: <taglib>
Time of Update: 2018-12-04
List結構集合類的使用:ArrayList、LinkedList、Vector(向量)和Stack(棧) 系統設計要求如下:程式碼如下://員工管理系統package com.test;import java.util.*;import java.io.*;public class Test6 { /** * @param args */ public static void main(String[] args) throws Exception{
Time of Update: 2018-12-04
1. SVD 簡介 SVD中文稱為“奇異值分解”,是一種矩陣分解方法。其公式如下: 定理:設A為m*n階複矩陣,則存在m階矩陣U和n階矩陣V,使得: A = U*S*V’ 其中S=diag(σi,σ2,……,σr),σi>0 (i=1,…,r),r=rank(A)。 其中 A 矩陣是我們初始的特徵矩陣,在文本挖掘中:A就是 t (term) 行 d (document)
Time of Update: 2018-12-04
private boolean getTextHelper(StringBuffer sb, Node node, boolean abortOnNestedAnchors, int anchorDepth) { if ("script".equalsIgnoreCase(node.getNodeName())) { return false; } if ("style".equalsIgnoreCase(node.getNodeName())) { return fals
Time of Update: 2018-12-04
1. 引言自然語言文本中的詞彙(術語)具有一詞多義(polysemy)和一義多詞(synonymy)的特點.由於一詞多義, 基於精確匹配的檢索演算法會報告許多使用者不要的東西; 由於一義多詞,基於精確匹配的檢索演算法又會遺漏許多使用者想要的東西.下面是一個例子:設Doc1, Doc2, Doc3是三個檔案. 一些術語在這三個檔案中的出現情況如下表: Doc1 Doc2 Doc3-----------------------