北理工大数据搜索与挖掘实验室历时两年,由张华平博士、高凯博士、黄河燕院长与赵燕平教授联合撰写的专著《大数据搜索与挖掘》2014年5月正式出版,已经可以通过各大网站购买。
目目录
《信息科学技术学术著作丛书》序
序
前言
第1章绪论
1.1大数据
1.2云计算及Hadoop简介
1.3Web搜索、全文索引与Lucene简介
1.3.1Web搜索
1.3.2全文索引
1.3.3Lucene简介
1.4大数据挖掘
1.5本书主要内容及其知识点
1.6本章小结
参考文献
第2章大数据搜索挖掘综述
2.1常用的信息检索模型
2.1.1传统布尔检索与扩展布尔检索模型
2.1.2向量空间模型
2.1.3概率检索模型
2.1.4语言模型
2.2自然语言理解与处理概述
2.3中文词法分析中的分词处理
2.3.1基于词典和规则的汉字分词
2.3.2基于大规模语料库的统计学习的分词方法
2.3.3规则和统计方法相结合的汉字分词方法
2.4未登录词及其识别
2.4.1命名实体及其识别
2.4.2未登录词与新词识别
2.5有意义串及其识别
2.6词典组织与管理
2.6.1基于Trie索引树的词典管理
2.6.2基于哈希表的词典管理
2.7文本分类
2.8文本聚类
2.8.1文本表示
2.8.2相似度度量
2.8.3聚类算法体系
2.9话题识别与跟踪
2.10句子及其检索
2.10.1传统的文档检索方法
2.10.2信息过滤方法
2.10.3分类方法
2.10.4语义比较方法
2.10.5隐马尔可夫模型方法
2.10.6自动文摘方法
2.11句子级新信息检测
2.11.1词重叠度
2.11.2最大区间相关度
2.11.3余弦冗余度
2.11.4命名实体触发方法
2.11.5统计机器翻译模型
2.11.6LexRank方法
2.12本章小结
参考文献
第3章大数据检索与分词
3.1概述
3.2分词对中文信息检索的影响
3.3分词精度与检索性能的关系
3.4大数据应用环境下中文信息检索的分词算法及其特点
3.4.1分词算法的时间性能要求高
3.4.2分词正确率的提高并不一定带来检索性能的提高
3.4.3分词切分粒度需在查询扩展层面进行相关处理
3.4.4未登录词识别的准确率要比召回率更重要
3.5基于双数组Trie树优化算法的词典
3.5.1双数组Trie树算法介绍及其优化
3.5.2利用优化的双数组Trie树算法组织词典
3.5.3实验结果与分析
3.6本章小结
参考文献
第4章基于层次隐马尔可夫模型的浅层词法分析
4.1概述
4.2英文浅层分析的实现
4.2.1英文断句与词汇切分
4.2.2词性标注
4.2.3词干抽取与词形还原。
4.3停用词处理与特征词选择
4.3.1停用词处理
4.3.2特征词选择
4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用
4.4.1层次隐马尔可夫模型
4.4.2基于类的隐马尔可夫分词算法
4.4.3N最短路径的切分排歧策略
4.4.4未登录词的隐马尔可夫识别方法
4.5汉语词法分析系统ICTCLAS性能实验与分析
4.5.1词法分析与层次隐马尔可夫模型
4.5.2ICTCLAS在973评测中的测试结果
4.5.3第一届国际分词大赛的评测结果
4.6基于单字位置成词概率识别未登录词的算法
4.6.1字的位置成词概率
4.6.2局部二元串频统计
4.6.3有关未登录词识别的实验结果
4.7本章小结
参考文献
第5章大数据语言新特征发现
5.1概述
5.2基于上下文邻接分析和语言模型的有意义串提取
5.2.1上下文邻接分析
5.2.2语言模型分析
5.2.3重复串发现及处理流程
5.2.4实验设计及结果分析
5.3基于局部性原理的低频有意义串提取
5.3.1有意义串的局部性
5.3.2局部性度量
5.3.3算法流程
5.3.4实验结果与分析
5.4基于伪相关反馈模型的有意义串提取
5.4.1算法的基本思想
5.4.2相关度的定义
5.4.3位置成词概率PWP的更新
5.4.4算法流程
5.4.5实验结果及分析
5.5本章小结
参考文献
第6章大数据聚类与分类
6.1概述
6.2基于关键词提取的搜索结果聚类
6.2.1相关术语简介
6.2.2关键词提取
6.2.3基于关键词的检索结果聚类方法
6.2.4实验结果及分析
6.3基于K—means算法的有意义串主题聚类算法
6.4基于邻接串种类的有意义串语境聚类
6.5有意义串对分类的改进
6.6本章小结
参考文献
……
第7章大数据文本自动摘要
第8章JZSearch大数据精准搜索引擎
第9章面向大数据的句子检索与新颖性监测
第10章人物追踪中的数据预处理与属性抽取
第11章人物模型组织与基于事件的信息处理
附录AICTCLAS/NLPIR2014汉语分词系统介绍
附录BNLPIR大数据搜索与挖掘共享开发平台
序
前言
第1章绪论
1.1大数据
1.2云计算及Hadoop简介
1.3Web搜索、全文索引与Lucene简介
1.3.1Web搜索
1.3.2全文索引
1.3.3Lucene简介
1.4大数据挖掘
1.5本书主要内容及其知识点
1.6本章小结
参考文献
第2章大数据搜索挖掘综述
2.1常用的信息检索模型
2.1.1传统布尔检索与扩展布尔检索模型
2.1.2向量空间模型
2.1.3概率检索模型
2.1.4语言模型
2.2自然语言理解与处理概述
2.3中文词法分析中的分词处理
2.3.1基于词典和规则的汉字分词
2.3.2基于大规模语料库的统计学习的分词方法
2.3.3规则和统计方法相结合的汉字分词方法
2.4未登录词及其识别
2.4.1命名实体及其识别
2.4.2未登录词与新词识别
2.5有意义串及其识别
2.6词典组织与管理
2.6.1基于Trie索引树的词典管理
2.6.2基于哈希表的词典管理
2.7文本分类
2.8文本聚类
2.8.1文本表示
2.8.2相似度度量
2.8.3聚类算法体系
2.9话题识别与跟踪
2.10句子及其检索
2.10.1传统的文档检索方法
2.10.2信息过滤方法
2.10.3分类方法
2.10.4语义比较方法
2.10.5隐马尔可夫模型方法
2.10.6自动文摘方法
2.11句子级新信息检测
2.11.1词重叠度
2.11.2最大区间相关度
2.11.3余弦冗余度
2.11.4命名实体触发方法
2.11.5统计机器翻译模型
2.11.6LexRank方法
2.12本章小结
参考文献
第3章大数据检索与分词
3.1概述
3.2分词对中文信息检索的影响
3.3分词精度与检索性能的关系
3.4大数据应用环境下中文信息检索的分词算法及其特点
3.4.1分词算法的时间性能要求高
3.4.2分词正确率的提高并不一定带来检索性能的提高
3.4.3分词切分粒度需在查询扩展层面进行相关处理
3.4.4未登录词识别的准确率要比召回率更重要
3.5基于双数组Trie树优化算法的词典
3.5.1双数组Trie树算法介绍及其优化
3.5.2利用优化的双数组Trie树算法组织词典
3.5.3实验结果与分析
3.6本章小结
参考文献
第4章基于层次隐马尔可夫模型的浅层词法分析
4.1概述
4.2英文浅层分析的实现
4.2.1英文断句与词汇切分
4.2.2词性标注
4.2.3词干抽取与词形还原。
4.3停用词处理与特征词选择
4.3.1停用词处理
4.3.2特征词选择
4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用
4.4.1层次隐马尔可夫模型
4.4.2基于类的隐马尔可夫分词算法
4.4.3N最短路径的切分排歧策略
4.4.4未登录词的隐马尔可夫识别方法
4.5汉语词法分析系统ICTCLAS性能实验与分析
4.5.1词法分析与层次隐马尔可夫模型
4.5.2ICTCLAS在973评测中的测试结果
4.5.3第一届国际分词大赛的评测结果
4.6基于单字位置成词概率识别未登录词的算法
4.6.1字的位置成词概率
4.6.2局部二元串频统计
4.6.3有关未登录词识别的实验结果
4.7本章小结
参考文献
第5章大数据语言新特征发现
5.1概述
5.2基于上下文邻接分析和语言模型的有意义串提取
5.2.1上下文邻接分析
5.2.2语言模型分析
5.2.3重复串发现及处理流程
5.2.4实验设计及结果分析
5.3基于局部性原理的低频有意义串提取
5.3.1有意义串的局部性
5.3.2局部性度量
5.3.3算法流程
5.3.4实验结果与分析
5.4基于伪相关反馈模型的有意义串提取
5.4.1算法的基本思想
5.4.2相关度的定义
5.4.3位置成词概率PWP的更新
5.4.4算法流程
5.4.5实验结果及分析
5.5本章小结
参考文献
第6章大数据聚类与分类
6.1概述
6.2基于关键词提取的搜索结果聚类
6.2.1相关术语简介
6.2.2关键词提取
6.2.3基于关键词的检索结果聚类方法
6.2.4实验结果及分析
6.3基于K—means算法的有意义串主题聚类算法
6.4基于邻接串种类的有意义串语境聚类
6.5有意义串对分类的改进
6.6本章小结
参考文献
……
第7章大数据文本自动摘要
第8章JZSearch大数据精准搜索引擎
第9章面向大数据的句子检索与新颖性监测
第10章人物追踪中的数据预处理与属性抽取
第11章人物模型组织与基于事件的信息处理
附录AICTCLAS/NLPIR2014汉语分词系统介绍
附录BNLPIR大数据搜索与挖掘共享开发平台