一、分詞
1、 ICTCLAS
http://www.ictclas.org/包含分詞、詞性標註功能, C++編寫,提供Java借口,業界比較出名。
2、 Ansj中文分詞
http://www.ansj.org/ 分詞 詞性等 Java,為ICTCLAS重新實現版本
以下三個為Lucene提供的中文分詞模組
3、 IKAnalyzer
http://code.google.com/p/ik-analyzer/ Java編寫
4、 paoding
http://code.google.com/p/paoding/ Java
5、 imdict-chinese-analyzer
http://code.google.com/p/imdict-chinese-analyzer/ Java HHMM分詞模型
6、 Stanford Word Segmenter
http://nlp.stanford.edu/software/segmenter.shtml
二、詞性標註
1、 Stanford POS Tagger
http://nlp.stanford.edu/software/tagger.shtml
2、 TreeTagger
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
3、 TnT
http://www.coli.uni-saarland.de/~thorsten/tnt/
4、 ICTCLAS支援中文詞性標註
三、句法分析
Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml
Berkeley Parser http://nlp.cs.berkeley.edu/Main.html#Parsing
Charniak Parser http://www.cs.brown.edu/~ec/
依存分析
Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml
MSTparser http://www.ryanmcd.com/MSTParser/MSTParser.html
MaltParser http://www.maltparser.org/
四、具名實體識別
Stanford NER http://nlp.stanford.edu/software/CRF-NER.shtml
五、語義角色標註
Illinois Semantic Role Labeler (SRL) http://cogcomp.cs.illinois.edu/page/software_view/SRL
六、綜合應用
1、 LTP http://ir.hit.edu.cn/ltp/
哈工大語言技術平台,LTP制定了基於XML的語言處理結果表示,並在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模組(包括詞法、句法、語義等6項中文處理核心技術),以及基於動態連結程式庫(Dynamic Link Library, DLL)的應用程式介面,視覺化檢視,並且能夠以網路服務(Web Service)的形式進行使用。
包括分詞、詞性標註、具名實體識別、依存句法分析、語義角色標註等模組,C++編寫
2、 FudanNLP http://code.google.com/p/fudannlp/
Java編寫
資訊檢索: 文本分類 新聞聚類
中文處理: 中文分詞 詞性標註 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別
結構化學習: 線上學習 層次分類 聚類 精確推理
3、 Stanford CoreNLP http://nlp.stanford.edu/software/corenlp.shtml
包括詞性標註、具名實體識別、句法分析和指代消解功能
4、ClearNLP https://code.google.com/p/clearnlp/
This project provides several NLP tools such as a dependency parser,a semantic role labeler, a penn-to-dependency converter, a prop-to-dependencyconverter, and a morphological analyzer.
All tools are written in Java and developed by the ComputationalLanguage and EducAtion Research (CLEAR) group at the University of Colorado atBoulder.
cleartk http://code.google.com/p/cleartk/