下载地址: http://www.nlpir.org/wordpress/download/Dissertation_KevinZhang.pdf
语言浅层分析与句子级新信息检测研究
摘 要
针对粒度更小、冗余更少的信息需求,本文围绕句子级别的信息检索与新信息检测,进行了深入而又细致的研究,提出了有针对性的浅层语言分析技术,讨论了句子检索的主要建模方法,并阐述了信息新颖度的多种量化手段。在多组对比实验和国际上公开的评测比赛中,依据本文技术方法研制的Noovel系统取得了当前最好的性能,超过了所有正式公开的结果,这也表明:本文提出的句子检索方法与新信息检测技术是卓有成效的。
针对新信息检测的英文浅层语言分析主要包括断句、词汇切分、词性标注以及词形还原等自然语言处理过程。作者在已有研究工作的基础上,结合新信息发现的特点,提出了有针对性的改进措施。在中文浅层语言分析方面,本文提出了一种将汉语分词、词性标注、切分排歧和未登录词识别相结合的基于层次隐马模型的理论框架。在语言的分析基础上,查询分析过程通过辅助词过滤与倾向分类,从自然语言表述的主题中理解用户的查询意图,从而抽取出可用于直接建模计算的查询向量。在目前所有能获取的公开数据集合上进行对比实验,基于浅层语言分析的系统性能均超过了目前所见到发表的最好水平。
在句子检索方面,Noovel采取了三种模型:向量空间模型、概率检索模型与语言模型。为了克服句子的局限性,本文引入了查询扩展的技术,主要包括:借助于WordNet的语义衍生扩展、伪相关反馈扩展、采用高频共现词语的局部共现扩展。在TREC2003数据集上的实验表明:在浅层语言分析的基础上,简单向量空间模型可以达到目前最好的结果,受到语义资源和分析深度的限制,当前阶段的语义扩展作用有限,而伪相关反馈与局部共现扩展都能够帮助提高句子检索的性能,局部共现扩展是很有潜力的查询扩展与文档扩展的技术。
句子级别的新信息检测是本项研究的最终目标,这是个时序性很强的信息过滤任务,在总结现有方法的基础上,本文提出了三种具有代表性的信息新颖度的量化方法,其中包括:词重叠度及其扩展方法、相似度比较方法与信息增强的评价方法。初衷在于兼顾信息与主题的相关性,同时还要与已有历史的信息进行比对,寻找新信息之所在。
除了非监督条件的新信息检测之外,本文还探讨了在监督条件下如何进行机器自动学习并调整参数的策略,主要的手段包括:进一步的特征选择、真实反馈、调整参数、阈值设置。作者还进一步的提出了基于分类的句子检索与新信息检测方法。
Noovel系统参加了第13届TREC比赛新信息发现任务的全部四个子任务,在最关键的任务1中,Noovel的新信息检测结果排名第一;任务3的句子检索性能方面,提交的两个结果并列排名第一,其他的子任务也取得不俗的成绩,与参赛的其他13支国际研究团队进行综合比较,本文在新信息方面的研究相对较优。
关键词:句子检索;新信息检测;浅层语言分析;信息检索;信息过滤;查询分析;查询扩展;自然语言处理;汉语分词;词性标注;Noovel
下载地址: http://www.nlpir.org/wordpress/download/Dissertation_KevinZhang.pdf