俞鸿魁,张华平,刘群. 基于角色标注的中文机构名识别, Proc. of 20th International Conference on Computer Processing of Oriental Languages, 2003年8月, pp79-87, 中国,沈阳 |
基于角色标注的中文机构名识别
【摘要】:中文机构名自动识别是命名实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机构名自动识别方法,其基本思想是:根据在机构名识别中的作用,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现中文机构名的识别。识别过程中我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信息完全可以从真实语料库中自动抽取得到。通过对大规模真实语料库的封闭测试中,该方法取得了接近90%的召回率和准确率,即使在开放测试中,准确率也高达88%。不同实验从各个角色表明:基于角色标注的机构名识别算
【作者单位】:中国科学院计算技术研究所软件研究室 中国科学院计算技术研究所软件研究室 中国科学院计算技术研究所软件研究室
【关键词】:中文机构名识别 未登录词识别 角色标注 Viterbi算法
【基金】:国家重点基础研究项目(G1998030507-4:G1998030510) 计算所领域前沿青年基金项目20026180-23资助
【分类号】:TP391.4
下载地址: 基于角色标注的中文机构名识别0605A.pdf(389 KB)
【关键词】:中文机构名识别 未登录词识别 角色标注 Viterbi算法
【基金】:国家重点基础研究项目(G1998030507-4:G1998030510) 计算所领域前沿青年基金项目20026180-23资助
【分类号】:TP391.4
下载地址: 基于角色标注的中文机构名识别0605A.pdf(389 KB)