83款 網路爬蟲開源軟體

來源:互聯網
上載者:User

標籤:Lucene   style   blog   http   java   color   使用   os   

 

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&

 

  • 搜尋引擎 Nutch

    Nutch 是一個開源Java 實現的搜尋引擎。它提供了我們運行自己的搜尋引擎所需的全部工具。包括全文檢索搜尋和Web爬蟲。 儘管Web搜尋是漫遊Internet的基本要求, 但是現有web搜尋引擎的數目卻在下降. 並且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web... 更多Nutch資訊

    最新動向:【每日一博】Nutch 的 url 的正則過濾機制研究 發佈於 20天前

  • 網站爬蟲 Grub Next Generation

    Grub Next Generation 是一個分布式的網頁爬蟲系統,包含用戶端和伺服器可以用來維護網頁的索引。 更多Grub Next Generation資訊

    最新動向:Grub Next Generation 1.0 發布 發佈於 3年前

  • 網站資料擷取軟體 網路礦工採集器(原soukey採摘)

    Soukey採摘網站資料擷取軟體是一款基於.Net平台的開源軟體,也是網站資料擷取軟體類型中唯一一款開源軟體。儘管Soukey採摘開源,但並不會 影響軟體功能的提供,甚至要比一些商用軟體的功能還要豐富。Soukey採摘當前提供的主要功能如下: 1.    多任務多線... 更多網路礦工採集器(原soukey採摘)資訊

  • PHP的Web爬蟲和搜尋引擎 PhpDig

    PhpDig是一個採用PHP開發的Web爬蟲和搜尋引擎。通過對動態和靜態頁面進行索引建立一個詞彙表。當搜尋查詢時,它將按一定的定序顯示包含關 鍵字的搜尋結果頁面。PhpDig包含一個模板系統並能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用於專業化 更... 更多PhpDig資訊

  • 網站內容採集器 Snoopy

    Snoopy是一個強大的網站內容採集器(爬蟲)。提供擷取網頁內容,提交表單等功能。 更多Snoopy資訊

  • Java網頁爬蟲 JSpider

    JSpider是一個用Java實現的WebSpider,JSpider的執行格式如下: jspider [URL] [ConfigName] URL一定要加上協議名稱,如:http://,否則會報錯。如果省掉ConfigName,則採用預設配置。 JSpider 的行為是由設定檔具體配置的,比如採用什麼外掛程式,結果儲存方... 更多JSpider資訊

  • 網路爬蟲程式 NWebCrawler

    NWebCrawler是一款開源的C#網路爬蟲程式 更多NWebCrawler資訊

  • web爬蟲 Heritrix

    Heritrix是一個開源,可擴充的web爬蟲項目。使用者可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt檔案 的排除指示和META robots標籤。其最出色之處在於它良好的可擴充性,方便使用者實現自己的抓取邏輯。 Heritrix是一個爬蟲架構,其組織結... 更多Heritrix資訊

  • Web爬蟲架構 Scrapy

    Scrapy 是一套基於基於Twisted的非同步處理架構,純python實現的爬蟲架構,使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便~ 更多Scrapy資訊

    最新動向:使用 Scrapy 建立一個網站抓取器 發佈於 6個月前

  • 垂直爬蟲 webmagic

    webmagic的是一個無須配置、便於二次開發的爬蟲架構,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。 以下是爬取oschina部落格的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t... 更多webmagic資訊

    最新動向:WebMagic 0.5.2發布,Java爬蟲架構 發佈於 1個月前

  • OpenWebSpider

    OpenWebSpider是一個開源多線程Web Spider(robot:機器人,crawler:爬蟲)和包含許多有趣功能的搜尋引擎。 更多OpenWebSpider資訊

  • Java多線程Web爬蟲 Crawler4j

    Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單介面。可以利用它來構建一個多線程的Web爬蟲。 範例程式碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j資訊

  • 網頁抓取/資訊提取軟體 MetaSeeker

    網頁抓取/資訊提取/資料幫浦軟體工具包MetaSeeker (GooSeeker) V4.11.2正式發布,線上版免費下載和使用,原始碼可閱讀。自推出以來,深受喜愛,主要應用領域: 垂直搜尋(Vertical Search):也稱為專業搜尋,高速、海量和精確抓取是定題網路爬蟲DataScrap... 更多MetaSeeker資訊

  • Java網路蜘蛛/網路爬蟲 Spiderman

    Spiderman - 又一個Java網路蜘蛛/爬蟲 Spiderman 是一個基於微核心+外掛程式式架構的網路蜘蛛,它的目標是通過簡單的方法就能將複雜的目標網頁資訊抓取並解析為自己所需要的業務資料。 主要特點 * 靈活、可擴充性強,微核心+外掛程式式架構,Spiderman提供了多達 ... 更多Spiderman資訊

  • 網頁爬蟲 Methanol

    Methanol 是一個模組化的可定製的網頁爬蟲軟體,主要的優點是速度快。 更多Methanol資訊

  • 網路爬蟲/網路蜘蛛 larbin

    larbin是一種開源的網路爬蟲/網路蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴充的抓取,最後為搜尋引擎提供廣泛的資料來源。Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至於如何parse的事情則由使用者自己... 更多larbin資訊

  • 爬蟲小新 Sinawler

    國內第一個針對微博資料的爬蟲程式!原名“新浪微博爬蟲”。 登入後,可以指定使用者為起點,以該使用者的關注人、粉絲為線索,延人脈關係搜集使用者基本資料、微博資料、評論資料。 該應用擷取的資料可作為科研、與新浪微博相關的研發等的資料支援,但請勿用於商... 更多Sinawler資訊

  • 【免費】死連結檢查軟體 Xenu

    Xenu Link Sleuth 也許是你所見過的最小但功能最強大的檢查網站死連結的軟體了。你可以開啟一個本地網頁檔案來檢查它的連結,也可以輸入任何網址來檢查。它可以分別列出網站 的活連結以及死連結,連轉向連結它都分析得一清二楚;支援多線程 ,可以把檢查結... 更多Xenu資訊

  • Web-Harvest

    Web-Harvest是一個Java開源Web資料幫浦工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的資料。Web-Harvest主要是運用了像XSLT,XQuery,Regex等這些技術來實現對text/xml的操作。 更多Web-Harvest資訊

  • 網頁抓取工具 PlayFish
  • playfish 是一個採用java技術,綜合應用多個開源java組件實現的網頁抓取工具,通過XML設定檔實現高度可定製性與可擴充性的網頁抓取工 具 應用開源jar包包括httpclient(內容讀取),dom4j(設定檔解析),jericho(html解析),已經在 war包的lib下。 這個

  • 易得網路資料擷取系統

    本系統採用主流程式設計語言php和mysql資料庫,您可以通過自訂採集規則,或者到我的網站下載共用的規則,針對網站或者網站群,採集您所需的資料,您 也可以向所有人共用您的採集規則哦。通過資料瀏覽和編輯器,編輯您所採集的資料。 本系統所有代碼完全開源,... 更多易得網路資料擷取系統資訊

  • 網頁爬蟲 YaCy

    YaCy基於p2p的分布式Web搜尋引擎.同時也是一個Http緩衝Proxy 伺服器.這個項目是構建基於p2p Web索引網路的一個新方法.它可以搜尋你自己的或全域的索引,也可以Crawl自己的網頁或啟動分布式Crawling等. 更多YaCy資訊

    最新動向: YaCy 1.4 發布,分布式Web搜尋引擎 發佈於 1年前

  • Web爬蟲架構 Smart and Simple Web Crawler

    Smart and Simple Web Crawler是一個Web爬蟲架構。整合Lucene支援。該爬蟲可以從單個連結或一個連結數組開始,提供兩種遍曆模式:最大迭代和最大深度。可以設定 過濾器限制爬回來的連結,預設提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler資訊

  • Web爬蟲程式 CrawlZilla

    crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本... 更多CrawlZilla資訊

  • 簡易HTTP爬蟲 HttpBot

    HttpBot 是對 java.net.HttpURLConnection類的簡單封裝,可以方便的擷取網頁內容,並且自動管理session,自動處理301重新導向等。雖 然不能像HttpClient那樣強大,支援完整的Http協議,但卻非常地靈活,可以滿足我目前所有的相關需求。... 更多HttpBot資訊

  • 新聞採集器 NZBGet

    NZBGet是一個新聞採集器,其中從新聞群組下載的資料格式為nzb檔案。它可用於單機和伺服器/用戶端模式。在獨立模式中通過nzb檔案作為參數的命令 行來下載檔案。伺服器和用戶端都只有一個可執行檔”nzbget”。 功能和特點 控制台介面,使用純文字,彩色文字或... 更多NZBGet資訊

  • 網頁爬蟲 Ex-Crawler

    Ex-Crawler 是一個網頁爬蟲,採用 Java 開發,該項目分成兩部分,一個是守護進程,另外一個是靈活可配置的 Web 爬蟲。使用資料庫儲存網頁資訊。 更多Ex-Crawler資訊

  • 招聘資訊爬蟲 JobHunter

    JobHunter旨在自動地從一些大型網站來擷取招聘資訊,如chinahr,51job,zhaopin等等。JobHunter 搜尋每個工作項目的郵件地址,自動地向這一郵件地址發送申請文本。 更多JobHunter資訊

  • 網頁爬蟲架構 hispider

    HiSpider is a fast and high performance spider with high speed 嚴格說只能是一個spider系統的架構, 沒有細化需求, 目前只是能提取URL, URL排重, 非同步DNS解析, 隊列化任務, 支援N機分布式下載, 支援網站定向下載(需要配置hispiderd.ini whitelist). 特徵... 更多hispider資訊

  • Perl爬蟲程式 Combine

    Combine 是一個用Perl語言開發的開放的可擴充的互連網資源爬蟲程式。 更多Combine資訊

  • web爬蟲 jcrawl

    jcrawl是一款小巧效能優良的的web爬蟲,它可以從網頁抓取各種類型的檔案,基於使用者定義的符號,比如email,qq. 更多jcrawl資訊

  • 分布式網頁爬蟲 Ebot

    Ebot 是一個用 ErLang 語言開發的可伸縮的分布式網頁爬蟲,URLs 被儲存在資料庫中可通過 RESTful 的 HTTP 要求來查詢。 更多Ebot資訊

  • 多線程web爬蟲程式 spidernet

    spidernet是一個以遞迴樹為模型的多線程web爬蟲程式, 支援text/html資源的擷取. 可以設定爬行深度, 最大下載位元組數限制, 支援gzip解碼, 支援以gbk(gb2312)和utf8編碼的資源; 儲存於sqlite資料檔案. 源碼中TODO:標記描述了未完成功能, 希望提交你的代碼.... 更多spidernet資訊

  • ItSucks

    ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支援通過下載模板和Regex來定義下載規則。提供一個swing GUI操作介面。   更多ItSucks資訊

  • 網頁搜尋爬蟲 BlueLeech

    BlueLeech是一個開來源程式,它從指定的URL開始,搜尋所有可用的連結,以及連結之上的連結。它在搜尋的同時可以下載遇到的連結所指向的所有的或預定義的範圍的內容。 更多BlueLeech資訊

  • URL監控指令碼 urlwatch

    urlwatch 是一個用來監控指定的URL地址的 Python 指令碼,一旦指定的 URL 內容有變化時候將通過郵件方式通知到。 準系統 配置簡單,通過文字檔來指定URL,一行一個URL地址; Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch資訊

    最新動向: urlwatch 1.8 發布 發佈於 4年前

  • Methabot

    Methabot 是一個經過速度最佳化的高可配置的 WEB、FTP、本地檔案系統的爬蟲軟體。 更多Methabot資訊

  • web 搜尋和爬蟲 Leopdo

    用JAVA編寫的web 搜尋和爬蟲,包括全文和分類垂直搜尋,以及分詞系統 更多Leopdo資訊

  • Web爬蟲工具 NCrawler

    NCrawler 是一個Web Crawler 工具,它可以讓開發人員很輕鬆的發展出具有Web Crawler 能力的應用程式,並且具有可以延展的能力,讓開發人員可以擴充它的功能,以支援其他類型的資源(例如PDF /Word/Excel 等檔案或其他資料來源)。 NCrawler 使用多執行緒(... 更多NCrawler資訊

  • Ajax爬蟲和測試 Crawljax

    Crawljax: java編寫,開放原始碼。 Crawljax 是一個 Java 的工具用於自動化的爬取和測試現在的 Ajax Web 應用程式。

相關關鍵詞:
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.