ICTCLAS(Institute of Computing Technology,Chinese Lexical
Analysis
System),由中国科学院计算技术研究开发,功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持
gb2312、GBK、UTF8 等多种编码格式,是世界上最好的汉语词法分析器之一。
下载地址:http://ictclas.org/ictclas_download.aspx
原系统只提供了 C++和 Java 版本,为了方便广大 Pythoner,决定用
python 对其进行重新封装。目前仅支持 Linux,Windows 版本开发中。
pyictclas 模块中包含三个类:一个 PyICTCLAS 类,用于分词工具的调用;一个是
CodeType?类,用于存放各种编码的枚举类型;一个是
POSMap 类用于存放标注集枚举类型。
项目主页:http://code.google.com/p/python-ictclas/
该项目废除,新项目参考:http://www.yidooo.net/archives/nlpir-python-version.html