异度部落格

学习是一种生活态度。

0%

ICTCLAS分词工具Python封装

ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),由中国科学院计算技术研究开发,功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持 gb2312、GBK、UTF8 等多种编码格式,是世界上最好的汉语词法分析器之一。 下载地址:http://ictclas.org/ictclas_download.aspx

原系统只提供了 C++和 Java 版本,为了方便广大 Pythoner,决定用 python 对其进行重新封装。目前仅支持 Linux,Windows 版本开发中。 pyictclas 模块中包含三个类:一个 PyICTCLAS 类,用于分词工具的调用;一个是 CodeType?类,用于存放各种编码的枚举类型;一个是 POSMap 类用于存放标注集枚举类型。

项目主页:http://code.google.com/p/python-ictclas/

该项目废除,新项目参考:http://www.yidooo.net/archives/nlpir-python-version.html