中文分词工具探析（一）：ICTCLAS (NLPIR)

原创已于 2024-12-17 11:32:39 修改 · 1.6k 阅读

·

1

·

标签

#中文分词 #算法 #自然语言处理

于 2016-12-27 11:05:00 首次发布

人工智能专栏收录该内容

53 篇文章 ¥29.90 ¥99.00

订阅专栏

本文介绍了张华平老师的ICTCLAS（现NLPIR）中文分词系统，它基于Bigram的Word-Based Generative Model，使用HMM处理未登录词。文章详细讲解了ICTCLAS的分词流程，包括核心词典切词、二元切分词图、HMM未登录词识别和分词结果整理。此外，还讨论了词典格式和计算联合概率的方法，以及代码实现的简化版本。

1. 前言

ICTCLAS是张华平老师推出的中文分词系统，于2009年更名为NLPIR。ICTCLAS是中文分词界元老级工具了，作者开放出了free版本的源代码(1.0整理版本在此). 作者在论文[1] 中宣称ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)实现，后在论文[2]中改成了基于层叠隐马尔可夫模型CHMM(Cascaded Hidden Markov Model)。我把HHMM的原论文[3]读了一遍，对照ICTCLAS源码，发现ICTCLAS本质上就是一个Bigram的Word-Based Generative Model，用HMM来做未登录词识别(修正分词)与词性标注，与HHMM没有半毛钱关系。Biagram语法模型对应于1阶Markov假设，则ICTCLAS分词模型的联合概率为

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。