1. 前言
ICTCLAS是张华平老师推出的中文分词系统,于2009年更名为NLPIR。ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在论文[1] 中宣称ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)实现,后在论文[2]中改成了基于层叠隐马尔可夫模型CHMM(Cascaded Hidden Markov Model)。我把HHMM的原论文[3]读了一遍,对照ICTCLAS源码,发现ICTCLAS本质上就是一个Bigram的Word-Based Generative Model,用HMM来做未登录词识别(修正分词)与词性标注,与HHMM没有半毛钱关系。Biagram语法模型对应于1阶Markov假设,则ICTCLAS分词模型的联合概率为
本文介绍了张华平老师的ICTCLAS(现NLPIR)中文分词系统,它基于Bigram的Word-Based Generative Model,使用HMM处理未登录词。文章详细讲解了ICTCLAS的分词流程,包括核心词典切词、二元切分词图、HMM未登录词识别和分词结果整理。此外,还讨论了词典格式和计算联合概率的方法,以及代码实现的简化版本。
订阅专栏 解锁全文
:ICTCLAS NLPIR&spm=1001.2101.3001.5002&articleId=130980559&d=1&t=3&u=5e81330644b142158331b904bc56bd6c)
505

被折叠的 条评论
为什么被折叠?



