距離和相似性度量

在資料分析和資料採礦的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料採礦中的分類和聚類演算法,如K最近鄰(KNN)和K均值(K-Means)。當然衡量個體差異的方法有很多,最近查閱了相關的資料,這裡整理羅列下。 為了方便下面的解釋和舉例,先設定我們要比較X個體和Y個體間的差異,它們都包含了N個維的特徵,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, …

以Groovy的方式更穩定地解析HTML

如何使用Groovy解析無法通過XML驗證的HTML代碼原文:Robust HTML parsing the Groovy way用Groovy解析XML很簡單,只要確保輸入的資料格式良好就能啟動並執行很好——但現實並非總是能保證這一點。視考慮HTML代碼,想讓它們通過XML的驗證總是困難重重,這就需要 TagSoup 來拯救了。主要的阻礙來自於:DTD未閉合的標籤讓我們通過一個簡單的指令碼來示範解析 StackOverflow 的頁面[java] view

資料庫設計正常化的五個要求

通常情況下,可以從兩個方面來判斷資料庫是否設計的比較規範。一是看看是否擁有大量的窄表,二是寬表的數量是否足夠的少。若符合這兩個條件,則可以說明這個資料庫的正常化水平還是比較高的。當然這是兩個泛泛而談的指標。為了達到資料庫設計正常化的要求,一般來說,需要符合以下五個要求。   要求一:表中應該避免可為空白的列。   雖然表中允許空列,但是,空欄位是一種比較特殊的資料類型。資料庫在處理的時候,需要進行特殊的處理。如此的話,就會增加資料庫處理記錄的複雜性。當表中有比較多的空欄位時,在同等條件下,資料庫

Lucene:Query

Lucene系列介紹Lucene有多種搜尋方式,可以根據需要選擇不同的方式。1、詞條搜尋(單個關鍵字尋找)   主要對象是TermQuery   調用方式如下:1 Term term=new Term(欄位名,搜尋索引鍵);2 Query query=new TermQuery(term);3 Hits hits=searcher.search(query); 2、組合搜尋(允許多個關鍵字組合搜尋)   主要對象是BooleanQuery   調用方式如下: 1 Term term1=new

基於分塊統計和機器學習的主題類網頁內容識別演算法實現和應用範例

參考了iteye上的一篇文章http://yshjava.iteye.com/blog/1528208,本人還原了該文章的源碼,還請那位博主原諒精確抽取web網頁內容一直是做資料幫浦開發比較頭痛的問題,目前國內外也有很多研究成果,尚待進一步發掘並應用於實際項目中下面是轉載部分:應該說,在WEB分塊領域,已經有大量的研究工作。由於HTML文法的靈活性,目前大部分的網頁都沒有完全遵循W3C規範,這樣可能會導致DOM樹結果的錯誤。更重要的是,DOM樹最早引入是為了在瀏覽器中進行布局顯示,而不是進行WE

設定Firefox瀏覽器Firefox預設的頁面縮放比例

Firefox(Firefox)瀏覽器不像其它瀏覽器一樣可以設定預設的顯示比例,所以如果螢幕解析度較高,瀏覽器預設顯示的頁面較小,給我們的閱讀帶來不便。這時,我們一般會採用手動方式調整頁面到合適的比例來瀏覽網頁,比如常使用“CTRL+”放大頁面,“CTRL-”縮小頁面。但是,在開啟新的頁面時還是預設的頁面大小,給瀏覽帶來不便。改變預設頁面大小,需要對Firefox瀏覽器進行擴充,方法如下:首先啟動Firefox瀏覽器,找到工具列中的“工具(Tool)”-“附加組件(Add-ons)”,在彈出的頁

Lucene:Field設定

Lucene系列介紹Field類定義了兩個很有用的內部靜態類:Store和Index,用它們來設定對Field進行索引時的一些屬性。Store是一個內部類,它是static的,主要為了設定Field的儲存屬性 1 public static final class Store extends Parameter implements Serializable { 2 private Store(String name) { 3 super(name); 4 } 5

The Semantic Web, Linked Data and Open Data

Back in 2001 Tim Berners-Lee and his collaborators published a seminal article(開創性論文) called “The Semantic Web” in which they presented their idea of “a new form of Web content that is meaningful to computers [and] will unleash a revolution of new

Lucene:IndexWriterConfig的設定

Lucene系列介紹執行個體代碼如下所示:1 Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);2 IndexWriterConfig iwconf = new IndexWriterConfig(Version.LUCENE_36, analyzer);3 iwconf.setOpenMode(IndexWriterConfig.OpenMode.CREATE);4 IndexWriter indexWriter =

Heritrix 3.1.0 源碼解析(一)

Heritrix是一個比較經典的開源爬蟲,本人打算用它來做一些資料擷取應用網上關於heritrix系列的博文 大多是老版本的(1.14.4版本),Heritrix 3.1.0版本的文章則極其稀少由於新的版本相對老版本改動比較大,所以本人不能循老版本的套路了(Heritrix 3.1.0 版本引入spring容器管理,相對增強了對spring熟悉的開發人員的親和性) 首先介紹新的Heritrix 3.1.0

Lucene:QueryParser

Lucene系列介紹作為lucene的Query工具,QueryParser卻是最重要的一個。簡單的說,QueryParser能夠根據使用者的輸入來進行解析,自動構建合適的Query對象。下面簡單總結一下它的實現:目錄使用者輸入QueryParser的初始化短語和QueryParser QueryParser的模糊比對查詢萬用字元與QueryParserQueryParser指定Field查詢QueryParser的範圍RangeQuery查詢QueryParser的多域MultiFieldQu

企業搜尋引擎開發之連接器connector(十四)

回顧Context類的start方法,還有一部分是啟動調度器的方法/** * Start up the Scheduler. */ private void startScheduler() { traversalScheduler = (TraversalScheduler) getRequiredBean("TraversalScheduler", TraversalScheduler.class); if

Lucene3.6 入門指南

Lucene系列介紹Lucene3.6 入門指南 目錄簡介基本流程基本概念Lucene的組成結構搭建環境代碼執行個體 一、

Heritrix 3.1.0 源碼解析(十三)

接下來分析BdbFrontier類的void finished(CrawlURI curi) 方法,完成CrawlURI對象的掃尾工作在BdbFrontier類的父類的父類AbstractFrontier裡面org.archive.crawler.frontier.BdbFrontier      org.archive.crawler.frontier.AbstractFrontier/** * Note that the previously emitted CrawlURI

Heritrix 3.1.0 源碼解析(十八)

從本文開始,我們來分析與Heritrix3.1.0系統的處理器相關的源碼,在Heritrix系統裡面,待處理的CrawlURI

Lucene 4.0 發布

Apache項目近日發布了Lucene 4.0版本。Apache Lucene是一個基於Java的、高效能的全文檢索索引引擎,你可以利用它來為你的應用程式加入索引和檢索功能。Lucene是目前最為流行的基於 Java 開源全文檢索索引工具包。Apache Lucene 4.0的主要特新包括:針對詞(term)、文章列表、儲存欄位、詞語向量(term vector)的索引格式可通過Codec

Heritrix 3.1.0 源碼解析(三)

如果從heritrix3.1.0系統的靜態邏輯結構入手,往往看不到系統相關對象的互動作用;如果只從系統的對象動態結構

Heritrix 3.1.0 源碼解析(十九)

本文繼續分析與heritrix3.1.0系統的處理器相關的源碼我們照例先來瀏覽一下class uml圖所有的處理器都繼承自抽象父類Processor,其中重要的方法如下/** * Processes the given URI. First checks {@link #ENABLED} and * {@link #DECIDE_RULES}. If ENABLED is false, then nothing happens. * If the

企業搜尋引擎開發之連接器connector(十三)

本文分析一下ConnectorInterfaces類的代碼,該類主要提供了訪問連接器的相關依賴類的一下方法,供ConnectorCoordinatorImpl類調用,其源碼如下:/** * Access to the AuthenticationManager, AuthorizationManager, and * TraversalManagager for a Connector instance. */public class ConnectorInterfaces {

Heritrix 3.1.0 源碼解析(十一)

上文分析了Heritrix3.1.0系統是怎麼添加CrawlURI curi對象的,那麼在系統初始化的時候,是怎麼載入CrawlURI curi種子的呢?我們回顧前面的文章,在我們執行採集任務的launch指令的時候,實際會調用CrawlController對象的void requestCrawlStart()方法/** * Operator requested crawl begin */ public void requestCrawlStart() {

總頁數: 61357 1 .... 10436 10437 10438 10439 10440 .... 61357 Go to: 前往

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.