International - English

Topic Center

Contact Sales

其他

第三章並行Distributed File System Parallel Distributed File System

Time of Update: 2018-12-06

第三章並行Distributed File System Parallel Distributed File System 搜尋的引擎的儲存規模至少都是TB層級，如何有效地管理和組織這些資源呢？並且在極短的時間內得出結果？MapReduce: Simplified Data Processing on Large Clusters 給出了很好的分析。Distributed File

第五章 5.4 PageRank演算法改進 Improvement for PageRank Algorithm

Time of Update: 2018-12-06

第五章 5.4 PageRank演算法改進 Improvement for PageRank Algorithm PR演算法的複雜度規模是log(n)，n是網頁的數量。網頁權值在演算法執行過程中是一個振蕩收斂的過程，這其中有兩個主要矛盾：1.節點的數量巨大，記憶體成為瓶頸之一。2.巨大的2維矩陣每次計算消耗時間巨大，時間效率上也是瓶頸；其中大部分網頁的權值比較低，而且都是浮點數計算。改進思路一：迭代計算的次數和矩陣的規模（連結的個數）有一定的比例關係，例如322M個連結需要52.5次迭代，161

第三章 3.1 I/O調度方式 Choose I/O Schedule

Time of Update: 2018-12-06

第三章 3.1 I/O調度方式 Choose I/O Schedule Completely Fair Queuing 機制和其字面的意思一致，完全公平的調度形式。每個進程產生的I/O請求都會被分配一個序號，進程之間的I/O請求隊列獨立，每次執行相同序號的請求。演算法的實現，cfq會先考慮進程的優先順序（0-20），從高的優先進程選擇執行序號比較優先的I/O請求。Analysis and Simulation of a Fair Queueing

中文的全文索引演算法

Time of Update: 2018-12-06

自動分詞是基於字串匹配的原理進行的；所謂自動分詞方法，指的是漢字字串匹配的進行方式。 1. 最大匹配法亦稱MM法；其基本思想是這樣的，假設自動分詞詞典（或詞庫）中的最長詞條是i個字，則取被處理材料當前字串序列中的前i個字作為匹配欄位，尋找詞典，若詞典中存在這樣的一個i字詞，則匹配成功，匹配欄位被作為一個詞切分出來；如果在詞典中找不到這樣一個i字詞，則匹配失敗，匹配欄位去掉最後一個字，剩下的欄位重新進行匹配，如此進行下去，直到匹配成功，也就是完成一輪匹配，切分出一個詞為止。

第三章 3.2 檔案分享權限設定入門簡介 Introduction of File Sharing System

Time of Update: 2018-12-06

第三章 3.2 檔案分享權限設定入門簡介 Introduction of File Sharing System 1) Remote sync (rsync) 是一種簡單的檔案分享權限設定實現方式。叢集中的每個節點都至少有一份資料複本，複本間使用rsync進行同步。因為節點需要的資料就在本地，所以這種方法具有很高的可用性，不會出現單點失效現象。適合的情境：資料量很小，而且更新不頻繁，可以採用這種方式。索引檔案可以使用用這樣的方式。2) Network File System (NFS)

倒排檔案的組織與最佳歸併分析

Time of Update: 2018-12-06

　倒排檔案的組織與最佳歸併分析趙長林（西南民族學院數學系）摘要對倒排檔案的組織與最佳歸併進行較系統的分析，提出了倒排檔案的儲存結構與實現的方法，倒排檔案上的演算法分析，最佳歸併順序的分析與論證。關鍵詞倒排檔案，倒排表，最佳歸併，最佳歸併樹中圖法分類號ＴＰ３１在資料庫應用系統中，一項主要的工作是對檔案的組織與操作，概括地講，操作主要分兩類，一類是檢索，一類是修改，修改的前提是尋找，成批尋找記錄就是檢索，因此，對一個資料庫應用系統設計的優劣，在於是否對檔案操作方便、快速尋找，這正是資料結構研究的工作

第三章 3.3 排隊系統的最佳化 Application of Queueing Theory

Time of Update: 2018-12-06

第三章 3.3 排隊系統的最佳化 Application of Queueing Theory

yield return關鍵字怎麼使用?

Time of Update: 2018-12-06

問題為：yield return關鍵字怎麼使用?答案：在迭代器塊中用於向枚舉數對象提供值或發出迭代結束訊號。它的形式為下列之一：複製代碼 yield return <expression>;yield break;備忘計算運算式並以枚舉數對象值的形式返回；expression 必須可以隱式轉換為迭代器的 yield 類型。yield 語句只能出現在 iterator

Lucene倒排索引原理

Time of Update: 2018-12-06

Lucene是一個高效能的java全文檢索索引工具包，它使用的是倒排檔案索引結構。該結構及相應的產生演算法如下：　　　　0）設有兩篇文章1和2　　文章1的內容為：Tom lives in Guangzhou,I live in Guangzhou too.　　文章2的內容為：He once lived in

第五章 5.2 得分規則 An Simple Scoring Rule

Time of Update: 2018-12-06

第五章 5.2 得分規則 An Simple Scoring Rule 出現關鍵詞頻度初始得分表同一位置頻度12-34-789>10得分m248831出現的位置初始得分表位置標題段首段尾其餘本文URL其他得分比i0.90.60.60.30.40.2網頁更新頻度得分表距查詢的時間一天一天至三天三天以後得分比j1.11.00.9容易得出網頁A的得分簡單的計算公式Score(A) = PageRank × β + ∑m × i ×

第一章 1.1 興趣的開始 Game Is Now Beginning

Time of Update: 2018-12-06

第一章 1.1 興趣的開始 Game Is Now Beginning Web上數十億張網頁，認真地在網路上亂逛發現最大的需求是：哪裡有好東西？我們能用它們來做什嗎？每個人對他們自己認為的有效資訊有不同的看法，且大多數人當他們一旦找到好東西的時候，總是有一些創造性的電子。在某些web的角落，鼓勵用有趣的方式來重新組織和運用這些資訊，而這些不平凡的資訊組合不容懷疑地向前流動，他們相信資訊時代的到臨。讓我們開始漫長的學習曆程吧！

第二章 2.2 宏觀看爬蟲 Key Points of Spider

Time of Update: 2018-12-06

第二章 2.2 宏觀看爬蟲 Key Points of Spider Web上的資訊具有異質性和動態性，由於受時間和儲存、頻寬的限制，不可能把所有的網頁都搜集起來，一個好的搜集策略是有限搜集重要的網頁。對於網頁的重要程度的評定，要依據搜集資訊所針對的不同應用而定，從而資訊的搜集可以採取不同的策略。而目前這個問題尚無定論，一般按照如下幾種指標來共同確定網頁的重要性：1）網頁的入度大，也就是被引用的次數多；2）該網頁的父網頁入度大；3）網頁有多個鏡像ip；4）網頁的目錄深度小，使用者比較容易達到；5

第三章 3.4 緩衝 Search Engine Caching

Time of Update: 2018-12-06

第三章 3.4 緩衝 Search Engine Caching 緩衝最佳化的核心思想是從避免無謂和重複的CPU計算、I/O調度來提高查詢器的輸送量。傳統的緩衝有兩級：一是對結果集的緩衝，紀錄了查詢的關鍵詞和返回結果。如果相同的關鍵詞被再次訪問將得到快速地響應，同時過濾導致重複查詢的計算量，提高系統的輸送量。另外一個是對倒排索引的緩衝，索引通常只保留最近、頻繁被訪問的索引段在記憶體中。這樣的兩級體系的優點在Rank-Preserving Two-Level Caching for

第四章 4.2 倒排索引基本原理 Principle of Inverted Index

Time of Update: 2018-12-06

第四章 4.2 倒排索引基本原理 Principle of Inverted Index Trie是效率最高的索引形式，表示由文本到的首碼樹的建立過程。插入操作的時間複雜度O(l)，其中l = max(length of word)；查詢的操作的時間複雜度O(l)；刪除操作的複雜度為O(n)，其中n = length of

本文給出了一種方便實用的解決大檔案的讀取、儲存等處理的方法，並結合相關程式碼對具體的實現過程進行了介紹

Time of Update: 2018-12-06

Code highlighting produced by Actipro CodeHighlighter

全文檢索索引中近義詞、關聯詞的解決方案

Time of Update: 2018-12-06

一直想找到一個好的同義字解決方案，在百度和google尋找，大家對於這個問題都只是寥寥數語，不願講清，我在javaeye搜此類資訊也求不到,後來發了個提問貼也只有瀏覽數而無回複，不知道這是什麼原因，無奈之下我只有自己研究。因為沒有其它的解決方案可以借鑒，以下純為我個人的見解。我認為所謂近義詞、關聯詞檢索不外乎以下三種形式：1.類似google

第四章 4.3 分詞原理 Chinese Word Parsing Algorithm

Time of Update: 2018-12-06

第四章 4.3 分詞原理 Chinese Word Parsing Algorithm 對索引網頁資訊的預先處理包括網頁分析和倒排檔案索引兩個部分，中文自動分次是網頁分析的前提。文檔由被稱作特徵項的索引片語成，網頁分析是將一個文檔表示為特徵項的過程。在提取特徵項時，中文又面臨了與英文處理不同的問題。中文資訊和英文資訊有一個明顯的差別：英語單詞之間用空格分隔；而在中文文本中，詞

第四章索引 Full Text Indexing

Time of Update: 2018-12-06

第四章索引 Full Text Indexing 在學習搜尋引擎技術之前最好有一定的知識儲備，Modern Information Retrieval

第一章概述 Summarization of Search Engine Architecture

Time of Update: 2018-12-06

第一章概述 Summarization of Search Engine Architecture 搜尋引擎的架構是編寫一個搜尋引擎所需要考慮的第一個問題，The Anatomy of a Large-Scale Hypertextual Web Search Engine 一文對此問題做了全面的闡述。最大的功能模組可以分為：爬蟲、儲存、索引和web服務。爬蟲負責不間斷地爬取目標網站的內容，維護一張url的列表，並按照不重複的原則周期性工作；儲存需要把過濾掉html

firefox下 iframe 高度自適應問題

Time of Update: 2018-12-06

Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->js指令碼在不同的瀏覽器下存在相容性問題，遇到一個利用iframe引用網頁，高度自調整問題。同樣在IE下可以通過的指令碼在iframe下沒有效果。尋找資料得如下代碼：方法一：var frm = document.getElementById("id_news"); var subWeb

總頁數： 61357 1 .... 8776 8777 8778 8779 8780 .... 61357 Go to: 前往

聯繫我們

該頁面正文內容均來源於網絡整理，並不代表阿里雲官方的觀點，該頁面所提到的產品和服務也與阿里云無關，如果該頁面內容對您造成了困擾，歡迎寫郵件給我們，收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容，歡迎發送郵件至： info-contact@alibabacloud.com 進行舉報並提供相關證據，工作人員會在 5 個工作天內聯絡您，一經查實，本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

其他

第三章 並行Distributed File System Parallel Distributed File System

第五章 5.4 PageRank演算法改進 Improvement for PageRank Algorithm

第三章 3.1 I/O調度方式 Choose I/O Schedule

中文的全文索引演算法

第三章 3.2 檔案分享權限設定入門簡介 Introduction of File Sharing System

倒排檔案的組織與最佳歸併分析

第三章 3.3 排隊系統的最佳化 Application of Queueing Theory

yield return關鍵字怎麼使用?

Lucene倒排索引原理

第五章 5.2 得分規則 An Simple Scoring Rule

第一章 1.1 興趣的開始 Game Is Now Beginning

第二章 2.2 宏觀看爬蟲 Key Points of Spider

第三章 3.4 緩衝 Search Engine Caching

第四章 4.2 倒排索引基本原理 Principle of Inverted Index

本文給出了一種方便實用的解決大檔案的讀取、儲存等處理的方法，並結合相關程式碼對具體的實現過程進行了介紹

全文檢索索引中近義詞、關聯詞的解決方案

第四章 4.3 分詞原理 Chinese Word Parsing Algorithm

第四章 索引 Full Text Indexing

第一章 概述 Summarization of Search Engine Architecture

firefox下 iframe 高度自適應問題

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

第三章並行Distributed File System Parallel Distributed File System

第四章索引 Full Text Indexing

第一章概述 Summarization of Search Engine Architecture