Time of Update: 2018-12-04
Nutch 二次開發總結Nutch構建好了一種搜尋引擎架構,在此基礎上可以進行二次開發,實現個人規模的搜尋引擎、企業區域網路搜尋引擎、對整個WEB的搜尋引擎等不同規模的搜尋引擎。另外還可以為達到一些特殊的目的建立起的搜尋引擎。不論是建立何種規模的搜尋引擎,一般情況下都需要對其進行二次開發,對原始碼進行相應的功能性修改。通過本次實驗,我們總結出一些二次開發中的重點環節,這裡做一個大致的描述。1.1
Time of Update: 2018-12-04
Nutch 的工作流程可以分為兩個大的部分:抓取部分與搜尋部分。抓取程式抓取頁面並把抓取回來的資料進行反向索引,搜尋程式則對反向索引進行搜尋回答使用者的請求,索引是聯絡這兩者的紐帶。 I. create db 建立並初始化的 WebDB 。 webDB 用於儲存的 URL 和頁面內容。 webDB 包括 crawldb 和 linkdb 。 crawldb 就是 Page 通過描述網路上一個網頁的特徵資訊來表徵實際的網頁,通過網頁 URL 和網頁內容的 MD5
Time of Update: 2018-12-04
瞭解nutch的人基本上對這個開源的系統都是比較欣賞的,起碼在國內是這樣的,也很有多搜尋網站是基於這個系統修改過來的,不過要做得好,做得真正是一個商業化的搜尋,這個修改就不是一朝一夕的事情,也不是修修剪剪那麼簡單了。 作為一個通用的全網層級的搜尋引擎架構,nutch(lucene)確實為廣大人民群眾提供了一塊大大的蛋糕,為進入搜尋這個行業大大降低了門檻。那麼它距商業的搜尋到底有多遠呢?以我的個人觀點來談一下。 一、總體功能
Time of Update: 2018-12-04
Win32 API中一個很常用的函數wsprintf,這是一個字串格式化函數,可以將數值按指定格式翻譯成字串,類似於C語言中的printf函數,它的原型是這樣的:int wsprintf( LPTSTR lpOut, // 輸出緩衝區地址 LPCTSTR lpFmt, // 格式化串地址 ... // 變數列表
Time of Update: 2018-12-04
1. GetCurrentDirectory 擷取目前的目錄2. GetModuleFileName擷取完整路徑 + PathRemoveFileSpec分離純路徑.386.model flat,stdcalloption casemap:none include windows.incinclude kernel32.incinclude user32.incincludelib kernel32.libincludelib
Time of Update: 2018-12-04
擷取檔案大小時間:(1)GetFileSize(2)GetFileTime(3)FindFirstFile的WIN32_FILE_DATA結構擷取時間和大小等注意:(1)檔案時間結構FILETIME通過 FileTimeToSystemTime轉換為SYSTEMTIME結構(2)SYSTEMTIME結構裡的元素都是word類型,需要用movzx轉換為dword,直接使用word會有問題執行個體:(1)GetFileSize _GetSize proc
Time of Update: 2018-12-04
在啟動並執行時候不會抓取到,分析了一下原因:主要在conf/crawl-urlfilter.txt.分析:使用nutch預設的配置過濾檔案的話,是不抓取到包含?*!@=等字元的URL解決辦法:修改crawl-urlfilter的過濾規則,# The url filter file used by the crawl command.# Better for intranet crawling.# Be sure to change MY.DOMAIN.NAME to your domain
Time of Update: 2018-12-04
擷取Explorer進程ID的兩種方式由進程ID進而用OpenProcess函數擷取控制代碼 1. 通過案頭類和名稱 .data? szDesktopClass db 'Progman',0 ;案頭的視窗類別szDesktopWindow db 'Program Manager',0 ;案頭的視窗名稱dwProcessID dd ?
Time of Update: 2018-12-04
_GetODProcID procLOCAL @hWinOD ;視窗控制代碼LOCAL @hProcessOD ;進程控制代碼LOCAL @idProcessOD ;進程IDinvoke FindWindow,addr szClassName,NULL ;通過類名擷取視窗控制代碼 .if eax ;找到 mov @hWinOD,eax
Time of Update: 2018-12-04
百度提供了免費搜尋代碼,供我們在自己網站上調用百度的搜尋功能,詳看:http://www.baidu.com/search/freecode.html在實際運用過程中,很多朋友遇到了亂碼問題,怎麼解決呢?出現亂碼問題的最可能原因是您的網站使用的UTF-8編碼,而百度使用的是GB2312編碼,因此需要在自訂代碼中指明我們需要使用的編碼,方法是在form中添加一個隱藏表單項:<input name=”ie” type=”hidden” value=”UTF-8″>最終的代碼如下所示:&
Time of Update: 2018-12-04
; 記憶體補丁例子一:對 Test.exe 進行記憶體補丁 .386 .model flat, stdcall option casemap :noneinclude windows.incinclude user32.incinclude kernel32.incincludelib user32.libincludelib kernel32.libPATCH_POSITION equ 00401004h
Time of Update: 2018-12-04
Google MapReduce研究綜述 MapReduce研究探討體會 MapReduce : Simplified Data Processing on Large Clusters MapReduce基礎 未讀Hadoop 分散式運算技術專題 Nutch 是最早用MapReduce的項目 (Hadoop其實原來是Nutch的一部分),Nutch的plugin機制吸取了eclipse的plugin設計思路。在Nutch中
Time of Update: 2018-12-04
在網頁修改或製作過程中,有的頁面是UTF-8的,有的是GB2312的,還有其它格式的。如果在製作或開啟時Dreamweaver的預設編碼與網頁的編碼格式不一致,就會導致亂碼等問題。當然,我們可以在開啟頁面後直接修改該頁面的編碼,方法是:主菜單 –> 修改 –> 頁面屬性 –> 標題/編碼 –> 編碼 修改編碼後
Time of Update: 2018-12-04
網站建設需要很多的知識,如HTML、JavaScript、CSS、PHP、JSP、ASP.NET開發語言,圖片、視頻、Flash制作,UI(使用者介面)設計,搜尋引擎最佳化,HTTP、FTP協議等。對於我們個人或者小型公司而言,全面掌握這些知識是不大可能的,但是我們可以合理利用他人提供的資源快速實現我們的開發目標。1.開源網站當我們需要開發某種應用的時候,可以先到這些開源網站去找找是否有一些開源的類似產品,如果有的話,就可以大量節省我們的時間和精力,更重要的是開源產品往往是比較優秀的。這裡有各種
Time of Update: 2018-12-04
GZip可對多種類型的檔案進行壓縮,對於CSS、JS、HTML檔案具有極高的壓縮率,尤其對使用了較多JS特效的網站,開啟GZip後壓縮比高達70%。因此,開啟GZip壓縮可以較顯著的為網站加速,不過要消耗一點伺服器資源,嘿嘿,總體來說,利大於弊。下面提供五種開啟GZip壓縮的方法:方法1. WordPress GZippy 外掛程式該外掛程式自動為WordPress開啟GZip壓縮功能的外掛程式,安裝後啟用即可。方法2. cPanel 面板網站最佳化選項如果使用的 cPanel 面板,在“軟體”
Time of Update: 2018-12-04
利用進程ID擷取主線程ID,僅適用於單線程。多線程應區分哪個是主線程,區分方法待驗證(1)好像可以用StartTime最早的,不過通過線程執行時間不一定可靠,要是在最開始就CreateThread了,線程的執行時間會相同。可以通過回溯棧上的值來判斷哪個線程是主線程,主線程的棧多少有些不同。最明顯就是主線程棧上的PE進入點資訊,沒有這個的就是子線程。(2)CsrProcessLink中取CsrProcessInfo->ClientId.UniqueThread即可,絕對可靠。 #includ
Time of Update: 2018-12-04
1.
Time of Update: 2018-12-04
.386.model flat,stdcalloption casemap:noneinclude windows.incinclude kernel32.incinclude user32.incincludelib kernel32.libincludelib user32.libinclude shlwapi.inc ;PathRemoveFileSpec 用includelib shlwapi.lib
Time of Update: 2018-12-04
圖片等資源被盜鏈後,會極大的浪費我們的流量,即使虛擬機器主機不限制流量,也會浪費我們的頻寬。今天,在網上偶爾看到了一篇防止盜鏈的文章,實踐了一下,果然有效果,現將我的實踐過程分享一下,僅供參考。1.Apache中的.htaccess檔案 .htaccess檔案,也叫“分布式設定檔”,是Apache中相當重要的設定檔,格式為純文字,提供了針對目錄改變更配置置的方法,通過對一個特定的文檔目錄中放置一個該檔案,以作用於該目錄及其子目錄。
Time of Update: 2018-12-04
.386.model flat,stdcalloption casemap:noneinclude windows.incinclude kernel32.incincludelib kernel32.libinclude user32.incincludelib user32.libinclude advapi32.inc ;必須包含這個標頭檔includelib