王斌现代信息检索(Modern Information Retrieval)

现代信息检索(Modern Information Retrieval)


二、教学目的和要求:


    本课程为计算机科学与技术、图书情报等相关学科研究生的专业基础课,本课程不是讲授如何利用检索工具进行情报检索,而主要以互联网内容应用为背景讲授和讨论现代信息检索领域的主要思想和关键技术。课程的主要内容包括检索模型、检索评价、相关反馈、查询扩展、信息的组织和索引、文本处理、文本分类与聚类、信息过滤、WEB搜索引擎等等。


       通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的研究能力和在互联网内容应用上的知识运用能力。


 


三、课程内容:(课件下载地址 >>>>>>)


    第零  课程相关情况 


第一章  绪论(1课时)


信息检索的典型应用。信息检索的基本概念和发展历史。信息检索和其他相关学科(自然语言处理、机器学习、概率统计、模式识别、数据库、数据挖掘等等)的关系。信息检索系统的基本构架和一般流程。


第二章 布尔检索及倒排索引(2课时)


字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操作。短语查询的处理。布尔检索模型及其扩展。


第三章 词典查找及扩展的倒排索引 (3课时)


支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查询处理的索引结构。支持拼写或发音纠错处理的索引结构。


第四章 索引构建(3课时)


文本预处理。一般构建过程。基于块排序的构建过程。单遍内存式扫描构建方法。分布式及动态索引方法。


第五章 索引压缩(3课时)


词项的统计特性。词典的压缩。倒排记录表的压缩。


第六章 向量模型及检索系统(3课时)


向量空间模型及词项权重计算机制。检索中的快速实现方法。检索系统的一般构成。隐性语义索引方法。基于开源工具搭建简单搜索引擎。


第七章 检索的评价(3课时)


效率和效果的评价。查全率和查准率。其他效果评价方法。用户体验及结果摘要。相关评测语料和评测会议。


第八章 相关反馈和查询扩展(3课时)


相关反馈和伪相关反馈。查询扩展及重构。全局方法及局部方法。


第九章 概率模型(3课时)


概率排序原理。回归模型。二值独立概率模型。OKAPI BM25公式。


第十章 基于语言建模的检索模型(3课时)


查询似然模型。其他语言模型。语言模型的相关反馈。


第十一章 文本分类(3课时)


文本分类的概念及评价方法。文本分类中的特征选择方法。


第十二章 文本聚类(3课时)


文本聚类的概念及评价方法。文本聚类算法。检索结果聚类的标签生成。


第十三章 Web搜索(3课时)


Web结构。信息采集。网页查重方法。链接分析算法(PageRankHITS)


第十四章 其他应用简介(4课时)


过滤及推送系统、XML检索、多媒体检索、跨语言检索、信息抽取、问答系统、互联网广告系统等等。


直接访问:http://ir.ict.ac.cn/ircourse/

You May Also Like

About the Author: nlpir

发表回复