简介
识别文本的命名实体,如人名和机构名称等。每种语言识别出的实体是相互独立的,英文的识别集合比其他语言更为丰富。再NERClassifierCombiner中,会执行多个命名实体识别,然后将结果组合起来。
识别类别
在英文中,命名实体识别能识别的名字包括:人名、地名、机构名、MISC;数字:钱、数字、序号、百分比;时间:日期,时间、持续序列、集合等实体。命名实体的识别使用组合的三个CRF标注序列在不同语料上训练的,如ACE和MUC评测会议的评测语料。数字实体识别使用基于规则的系统实现,同时,数字实体需要进行规范化,如dates,被规范化为NormalizedNamedEntityTagAnnotat

本文介绍了Stanford CoreNLP在命名实体识别(NER)方面的应用,包括英文中的多种实体类型如人名、地名、机构名等,以及中文NER的CRF模型实现。详细讲解了识别类别、模型主要内容如类别定义、CRF特征索引、工厂方法、权重和lcWords等。

968

被折叠的 条评论
为什么被折叠?



