自己動手寫CSDN部落格提取器源碼分析之一:處理網頁儲存為txt檔案

在昨天上午發了一個文章[原創]自己動手寫CSDN部落格提取器,提取檔案儲存支援PDF、doc、txt三種格式有很多網友比較感興趣,有些網友說要公布一下源碼,在這裡,我就把這個軟體製作的一些核心代碼貼出來,給大家分享。下面是把抓取到的網頁用Regex處理留下純文字然後儲存為txt檔案。這個代碼很簡單的,相信大家都看得懂吧。/** * */package com.wyp.html2txt;import java.io.BufferedWriter;import

自己動手寫CSDN部落格提取器源碼分析之二:處理網頁儲存為doc檔案

下面是把抓取到的網頁用itext包儲存為doc檔案,過程很簡單的。下面是這個類的實現:/** * */package com.wyp.html2doc;import java.io.File;import java.io.FileOutputStream;import java.io.StringReader;import java.util.List;import com.lowagie.text.Document;import

自己動手寫CSDN部落格提取器源碼分析之三:處理網頁儲存為pdf檔案

下面我講下處理pdf檔案的,這裡我用了PD4ML來處理的,原因有幾個:(1)、它對CSS的支援做的很好;(2)、可以處理圖片(很爽吧)(3)、可以處理中文,不過麻煩一些。基礎的過程可以看我的另外一篇文章java編程將HTML檔案轉換成PDF檔案http://blog.csdn.net/w397090770/article/details/7753166。下面是我的處理流程:/** * */package com.wyp.html2pdf;import java.io.File;import

自己動手寫CSDN部落格提取器源碼分析之四:抓取網頁源碼

前幾天公布了儲存檔案的一些源碼,今天我發一下怎麼抓取網頁源碼。學過java和C的都知道,java抓取源碼要比C語言簡單的多,很多東西java都封裝好了,只需要調用URL這個類的一些介面就可以獲得我們需要的一些資源,而不像C一樣,自己構造包,自己再發送,自己要非常懂HTML的一些發送和接收訊息包的格式,相當的麻煩。。。下面就是我工程裡面的擷取源碼的類(精簡了)。/** * */package com.wyp.HTML;/** * @author w397090770 * Create Data:

Unix網路編程(卷二)源碼編譯報錯解決 .

 源碼下載地點:http://www.kohala.com/start/unpv22e/unpv22e.html1、按照Readme操作,進入lib目錄下make報錯:  gcc -g -O2 -D_REENTRANT -Wall -D_POSIX_PTHREAD_SEMANTICS   -c -o daemon_inetd.o daemon_inetd.cIn file included from /usr/include/netinet/in.h:24,                

在fedora裡面安裝BerkeleyDB資料庫

已轉到:http://www.wypblog.com/archives/179         一、首先到oracle的官網下載Berkeley db資料庫源檔案http://download.oracle.com/otn/berkeley-db/db-5.3.15.tar.gz         二、下載之後的檔案是一個打包好的檔案,需要在命令列裡面利用tar來解壓(當然你也可以利用一些視覺化檢視來解壓),步驟如下在命令列裡面輸入 tar -zxvf 

WSDL[Web 服務描述語言]

SDL就是對Web服務軟體的描述。具體來說,它描述所有公用可用的方法、交換方法、訊息類型以及用在網路層的傳輸協議和Web服務的地址。用戶端應用程式可以為使用的特定傳輸協議找到Web服務,以及調用任何公用方法。基本上,WSDL可以看作是服務提供者和服務要求者之間的契約。WSDL是XML格式的,所以它也具有平台無關性。WSDL和Java類似,因為它支援抽象和具體概念、以及介面。類似於Java,WSDL也支援抽象的介面。在WSDL下是一個服務,這個服務被描述為一個接受訊息的終端的集合。再往下是一些基礎

一些經典的演算法實現

//插入排序:package org.rut.util.algorithm.support;import org.rut.util.algorithm.SortUtil;/** * @author treeroot * @since 2006-2-2 * @version 1.0 */public class InsertSort implements SortUtil.Sort{ /** (non-Javadoc) * @see

編寫自己的ls程式

本程式用來仿照linux中的ls -l命令來實現的,主要運用的函數有opendir,readdir, lstat等。代碼如下:#include <iostream>#include <vector>#include <cstdlib>#include <dirent.h>#include <sys/types.h>#include <sys/stat.h>#include <unistd.h>#include &

Short URL implement

Few months ago, I introduced a simple algorithmthat allow users to implement their own short URL into their system. Today,I have some spare time so I decided to write the short URL algorithm'simplementation in PHP.At first, we define a function

尋找二叉樹兩節點的最近的公用祖先[轉載+整理]

1.樹節點定義中帶有parent指標struct TreeNode{ int data; TreeNode *left,*right,*parent;};演算法思想:(1). p->parent(2). 將q的所有祖先節點依次和p->parent作比較,如果發現兩個節點相等,則該節點就是最近公用祖先,直接將其返回。如果沒找到相等節點,則轉3(3).p = p->parent,轉2主要代碼如下:const TreeNode* FindNCA(const

LaTex數學符號+代碼運行結果

\[\Gamma_{ij}^{k}=\frac{1}{2}(\frac{\partial g_{il}}{\partial u^j}+\frac{\partial g_{jl}}{\partial u^i}-\frac{\partial g_{ij}}{\partial

數獨遊戲的設計

前幾天看到了一本面試的書上,裡面有一道題目,是說數獨遊戲的產生,於是自己就想實現一下,看了一下別人的代碼,自己修改了一些,代碼的核心思想是:利用深度優先搜尋,當搜尋到的節點滿足條件,則搜尋下一點,否則回退。程式運行圖:public void getSudoku(int [][] array, LEVEL level) {clear(array);int row = 1, check1 = 10, check2 = 10, check3 = 10;int time = 0, i = 0, j =

樹的中序非遞迴遍曆和層次遍曆實現

在樹的中序遍曆中需要用到棧,在層次遍曆中需要用到隊列,下面就是樹的結構:代碼實現:#include <stdio.h>#include <stdlib.h>// TreeNode//////////////////////////////////////////////////////////////////////////typedef struct TreeNode{ char m_cVal; TreeNode* m_pLeft; TreeNode*

二叉樹的鏈表標記法實現

本程式實際上是構建了一顆二叉排序樹,程式最後輸出構建數的中序遍曆。代碼實現:#include <stdio.h>#include <stdlib.h> typedef int DataType; typedef struct BTree{DataType data;struct BTree *Tleft;struct BTree *Tright;}*BTree;BTree CreateTree(); BTree insert(BTree root, DataType

超級終端改寫系統寫入權限以及可能引發問題的解決

用adb串連到device,輸入mount -o remount rw /system,斷行符號,如果用rm刪除了apk檔案,再次安裝時可能會報如下錯誤INSTALL_FAILED_UPDATE_INCOMPATIBLEgoogle...找到原因:http://xusaomaiss.javaeye.com/blog/393296在反覆安裝android apk的時候,有的時候可能會遇到adb install錯誤,內容是:Failure

運用向量求兩個很長正數的和

已遷往:http://www.wypblog.com/archives/54題目要求:實現一個加法器,使其能夠輸出a+b的值。輸入:輸入包括兩個數a和b,其中a和b的位元不超過1000位。輸出:可能有多組測試資料,對於每組資料,輸出a+b的值。範例輸入:2 610000000000000000000 10000000000000000000000000000000範例輸出:810000000000010000000000000000000我的程式:#include

關於畢業論文的致謝,我真想這麼寫……

以下轉帖,我真得很想這麼寫,可惜,有賊心沒賊膽啊感謝馮.諾依曼先生。是他整出了世界上的第一台電腦,才使得我們這些後人鳥槍換炮,由“剪刀加糨糊”的“學術土匪”晉級為“滑鼠加剪貼簿”的“學術海盜”。電腦,將我們從枯燥的書本中解救了出來,我們無須再在圖書館裡東尋西覓,只要一敲鍵盤,我們就能方便快捷地搞定所需的一切。電腦,是我們寫論文的制勝法寶,是我們寫論文的大功臣。因此,他是我所應感謝的第一人。感謝比爾.蓋茨先生。他以大無畏的革命主義精神、英雄主義精神和犧牲主義精神毅然從哈佛輟學。他發明了window

androi中xliff:g

多Android開發人員可能會發現部分資源字串在/res/values/string.xml中包含有類似xliff的節點,Xliff是 XML Localization Interchange File Format 的縮寫,中文名為XML本地化資料交換格式,對於在Android的資源字串中,可能會有類似下面的 <xliff:g id="cwj">%1$s</xliff:g>

關於 Activity 中 startActivityForResult 和 onActivityResult

如果你想在Activity中得到新開啟Activity 關閉後返回的資料,你需要使用系統提供的startActivityForResult(Intent intent, int requestCode)方法開啟新的Activity,新的Activity 關閉後會向前面的Activity 傳回資料,為了得到傳回的資料,你必須在前面的Activity中重寫onActivityResult(int requestCode, int resultCode, Intent data)方法:public

總頁數: 61357 1 .... 13598 13599 13600 13601 13602 .... 61357 Go to: 前往

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.