面向人物追踪的知识挖掘研究
近年来,关于文本信息处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,目前的研究偏重于综合利用各种手段来更好地满足新的应用场景,一系列国际评测也推动了各项技术的发展。尽管在移动通信领域,跟踪人物行踪的技术已相对成熟;然而,在自由文本空间内,如何根据人物的报道自动整理出相关人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统一的结论。
为此,本文提出了“人物追踪”的概念,首先对“人物追踪”进行了概括性的介绍,论述了“人物”和“人物追踪”的内涵和外延,提出了“人物模型”的文本表示方法,并对其进行了形式化的定义。随后,给出了人物追踪要解决的主要问题,相关的技术基础,处理文档资料的系统流程以及人物追踪在学术上和应用上的意义。
在对人物追踪涉及到的主要技术进行了理论和方法上的综述后,本文结合人物追踪的系统流程,介绍了人物追踪数据预处理的方法。处理的文档主要是汉语的新闻网页。重点研究了网页解析和人物属性抽取的方法。通过数据预处理,把文本内容转化成人物模型的信息片断。
接下来,本文研究了人物模型的同一性判断方法和数据融合方法。主要是处理人物模型片断的信息,不仅要把不同人物的信息区分开,还要把同一人物的信息进行整合,形成完整的人物生平履历。本文在这部分重点介绍了人物模型的特征表示和相似度计算方法。
在人物模型同一性判断基础上,针对同一人物的活动报道,本文研究了人物活动事件的组织方法。事件的组织分为“微观粒度的事件组织”和“宏观粒度的事件组织”。本文对宏观粒度事件组织进行了重点的研究,以标准的国际评测为平台,以文档或段落为基本的处理单位,不涉及具体的事件角色框架来对事件报道进行组织。本文不仅研究了宏观粒度事件的识别技术,还研究了事件之间层次关系的组织方法。
随后,本文探讨了人物追踪若干细粒度挖掘任务的处理方法,并以“流通度理论”和“动态流通语料库理论”为基础,重点研究了人物知名度的计算方法。通过跟踪人物不同时期的知名度变化,绘制出人物知名度变化的曲线图。
通过结合人物追踪的理论和技术研究,本文最后给出了人物信息搜索引擎的设计方案。不仅设计了体系结构,还给出了人物搜索引擎的索引结构和搜索结果显示界面。
本文的研究成果为自由文本空间内人物信息的大规模组织奠定了坚实的基础,所提出的“人物追踪”概念为文本挖掘领域提供了一个崭新的研究视角和方向,对于抽象对象的挖掘具有重要的启发意义和实用价值。
关键词:人物,人物追踪,知识挖掘,人物模型,人物属性抽取,同一性判断,事件信息组织,知名度计算,人物搜索引擎