第三章 並行Distributed File System Parallel Distributed File System 搜尋的引擎的儲存規模至少都是TB層級,如何有效地管理和組織這些資源呢?並且在極短的時間內得出結果?MapReduce: Simplified Data Processing on Large Clusters 給出了很好的分析。Distributed File
第一章 1.1 興趣的開始 Game Is Now Beginning Web上數十億張網頁,認真地在網路上亂逛發現最大的需求是:哪裡有好東西?我們能用它們來做什嗎?每個人對他們自己認為的有效資訊有不同的看法,且大多數人當他們一旦找到好東西的時候,總是有一些創造性的電子。在某些web的角落,鼓勵用有趣的方式來重新組織和運用這些資訊,而這些不平凡的資訊組合不容懷疑地向前流動,他們相信資訊時代的到臨。讓我們開始漫長的學習曆程吧!
第四章 4.2 倒排索引基本原理 Principle of Inverted Index Trie是效率最高的索引形式,表示由文本到的首碼樹的建立過程。插入操作的時間複雜度O(l),其中l = max(length of word);查詢的操作的時間複雜度O(l);刪除操作的複雜度為O(n),其中n = length of
第四章 4.3 分詞原理 Chinese Word Parsing Algorithm 對索引網頁資訊的預先處理包括網頁分析和倒排檔案索引兩個部分,中文自動分次是網頁分析的前提。文檔由被稱作特徵項的索引片語成,網頁分析是將一個文檔表示 為特徵項的過程。在提取特徵項時,中文又面臨了與英文處理不同的問題。中文資訊和英文資訊有一個明顯的差別:英語單詞之間用空格分隔;而在中文文本中,詞
第一章 概述 Summarization of Search Engine Architecture 搜尋引擎的架構是編寫一個搜尋引擎所需要考慮的第一個問題,The Anatomy of a Large-Scale Hypertextual Web Search Engine 一文對此問題做了全面的闡述。最大的功能模組可以分為:爬蟲、儲存、索引和web服務。爬蟲負責不間斷地爬取目標網站的內容,維護一張url的列表,並按照不重複的原則周期性工作;儲存需要把過濾掉html
Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->js指令碼在不同的瀏覽器下存在相容性問題,遇到一個利用iframe引用網頁,高度自調整問題。同樣在IE下可以通過的指令碼在iframe下沒有效果。 尋找資料得如下代碼:方法一:var frm = document.getElementById("id_news"); var subWeb