發布我的倒排索引 - C/C++ - ChinaUnix.net -
redor redor 當前離線
-
空間積分
-
0
-
信譽積分
-
277
-
UID
-
66168
-
閱讀許可權
-
30
-
積分
-
1565
-
文章
-
1058
-
精華
-
11
-
可用積分
-
1567
-
專家積分
-
0
-
線上時間
-
714 小時
-
註冊時間
-
2003-07-19
-
最後登入
-
2013-03-11
家境小康 家境小康, 積分 1565, 距離下一級還需 435 積分
-
文章
-
1058
-
主題
-
123
-
精華
-
11
-
可用積分
-
1567
-
專家積分
-
0
-
線上時間
-
714 小時
-
註冊時間
-
2003-07-19
-
最後登入
-
2013-03-11
-
論壇徽章:
-
0
|
電梯直達 1樓 [收藏(0)] [報告] 發表於 2008-07-03 16:01:15 |只看該作者 |倒序瀏覽
http://libibase.googlecode.com/ 主要功能: 解析HTML 中文分詞(反向最大匹配,用trie實現) 產生正向文檔(我自己定義的格式,暫時是這樣) 產生倒排索引(分Block Storage,bytecode壓縮演算法, 本文和快照採用zlib壓縮) 提交查詢串檢索(只實現了向量空間模型, 動態摘要還沒完成) 目前只有一個命令列測試載入器hibase 包內內建10w中文詞庫(doc目錄下,gzip格式, 使用的時候需要解開) 使用方法可以看README 接下來就是測試和最佳化,因為寫的時候宏比較多,所以編譯還是有點慢....呵呵 要一塊學習的可以加我的MSN/GTAIL : sounos@gmail.com 順便貼一個使用執行個體: 我用wget下了chinaunix的首頁到/data/html目錄下 /data/dict下是我的詞典
- ./hibase --basedir=/tmp --dict=/data/dict/dict.txt --add --doc=/data/html/index.html --url=http://www.chinaunix.net/ --date="Thu, 03 Jul 2008 10:12:18 GMT" --charset="gbk" --query --request="chinaunix" --topN=1000
- parsing document[[url]http://www.chinaunix.net/[/url]] time used:16825 microseconds
- adding document[[url]http://www.chinaunix.net/[/url]] time used:47955 microseconds
- parse query time used:36
- read hits[1] posting time used:1897
- Caculated 1 documents time used:22
- read 1 documents content time used:1404
- (0) title[ChinaUnix.net = 全球最大的Linux/Unix應用與開發人員社區 = IT人的網上家園]
- summary[(null)]
- url[[url]http://www.chinaunix.net/[/url]]
- size[84892]date[Thu, 03 Jul 2008 10:12:18 GMT]
- search [chinaunix] time used:3502
複製代碼 |
|