【大数据100分】张华平:大数据搜索与挖掘:知著-见微-晓意
主讲嘉宾:张华平
主持人:中关村大数据产业联盟 副秘书长 林春雨
承办:中关村大数据产业联盟
嘉宾简介:张华平博士,副教授,北京理工大学大数据搜索与挖掘实验室主任,研究生导师,知名汉语分词系统ICTCLAS的创始人,中国计算机学会YOCSEF委员及普及工委委员,中国中文信息学会社会媒体处理专业委员会常务委员,首都师范大学,辽宁师范大学客座教授,北京市重点产业知识产权联盟专家、同时担任《计算机学报》、《计算机研究与发展》、中国科技论文在线等杂志的特邀评审专家。研究方向为:大数据搜索与挖掘、自然语言处理、社交网络。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。主持国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》、《信息检索:算法与启发式规则》、《自然语言理解》等专译著3部。并作为特邀大数据技术专家,先后在中央电视台、全球大数据技术峰会、中国网络科学大会、《中国计算机世界》上做演讲与专访,引起学术界与产业界广泛关注。
以下为分享实景全文:
感谢各位朋友的莅临,随着以微博、Twitter与Facebook等为代表的新型社交网络的迅猛发展,大数据已经成为了新一轮的科技革命,是信息技术发展的新趋势,对国家的经济与社会已经逐步产生重大影响。今天我的演讲包括四个部分:我对大数据的定义与理解;大数据应对之道:知著–见微–晓意;大数据搜索与挖掘的研究;大数据搜索与挖掘的实践案例分享。
第一部分:我对大数据的定义与理解
我们先从棱镜计划的手机监控来看大数据:
我们知道,利用我们手机周边的三个基站基本可以定位出我们所在的位置。利用手机位置,美国NSA究竟可以做什么?博主年初在CCTV接受了专访,且听我分解如下:
第一:可以推断出个人的活动规律,出差规律,出国频度等;
第二:可以推断出个人职业、性别等(这个并不难,只需要根据其位置对应的职业特征即可,如高校、写字楼、农场、女性用品店等);
第三:可以推断出个人社交圈(晚上与你手机频繁重叠的,绝大部分都是你的亲属;白天重叠的,是同事的概率极高;与危险人物密切交际的手机主人,其属于潜在威胁的概率大大高于常人);
这是一个非常经典的大数据案例,其中手机位置数据大量叠加,我们从中获得了远远超出了手机位置之外的多种信息,几乎可以做安全监控的所有事情。
刚才的案例还是有些高富帅,不是国家特种机构很难作为。那么我再举一个芸芸众生可以轻易为之的案例,杨达才表哥案。
上面的11张图片中,每一张都来自于公开、轻易可以获取的普通新闻网页,单点来看,几乎没有任何特别的价值,但是当这11条普通的信息按照一定的结构一定的逻辑叠加在一起的时候,将从中挖掘出巨大的情报价值,从而形成知识,形成反腐决策的智慧。量变引起质变,从无数普通水滴中,我们可以窥探到世界的气候风云变化,这就是大数据的魅力所在。
那么究竟什么是大数据,几乎不同的人都会做对自己有利的解释,这点跟当前所有流行的技术热点类似。比如说:数据库领域的人会说大数据就是数据仓库,体系结构的会说大数据就是云计算、hadoop就是数据中心,做芯片的会说,大数据就是更高性能的并行芯片。
我们且看已有的广为流行的说法:一个来自于Wiki,定义如下:Wiki: Big data is the term for acollection of data sets so large and complex that it becomes difficult toprocess using on-hand database management tools or traditional data processingapplications.
另外一个是来自于舍恩伯格.维克托《大数据时代》:大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
博主认为:这两种定义都不严谨,仅仅是定义出了大数据的属性,是大数据的必要而不充分的条件。结合刚才讲的两个案例,我们给出了我们自己的理解:大数据是指从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识,转化为智慧的方法论。
我更多的强调的是大数据从微观数据中,发现信息,挖掘知识,并转化为智慧。大数据更多的是一种方法论,而不仅仅是数据本身。根据科技革命的周期律,大数据是一场新的科技革命,也是一种思想方法的革命。
大数据思维主要包括:全量分析,让数据说话; 承认并客观地认识世界的混杂性; 相关性挖掘替代因果推断。当然这里还有不少争议,有各家之言。
第二部分大数据应对之道:知著–见微–晓意
我们中国人做事的时候,先道后术。我们先从一张自创的示意图开始说起:
我们如何解读这张图,按照正常的逻辑一般人会说:这是一个“大”字,细看是由多个“小”字组成,不过其构成有一个有机的宏观结构。细想一下,还需要有个必备的语义知识理解过程,我们都认识中文的字,有中文语义理解的基础。
其实我们对大数据的理解也是这样的过程,即:知著、见微、晓意。如下图所示:
我想以微博分析为例来解释一下我的观点。
知著:强调的是从整体来认识客观世界,需要快速计算大数据的宏观特征与结构。是整体认识客观世界快速而又有效的方法。微博分析过程中,我们需要的是快速计算出微博的热点特征,需要了解微博关注与传播的宏观分布图。
见微:强调的是在宏观指导下,有针对性的研究有代表性的微观数据,这里并不需要对每一个微观进行分析计算。微博计算时,我们不可能对每一条微博做精细化的分析,这在效率上是不可能对,最终也会因为过多微观导致的噪声过多,影响最终的效果。
晓意:强调的是对语言语义的理解与认知,属于自然语言理解的范畴。需要我们真正理解内容内在的含义。这点目前强调的不多,举中英文的例子分别说明一下:
“杭州市长春药店”存在两种歧义理解:杭州/市长/春药店/ 以及杭州市/长春/药店 ,语义理解的错误会造成不同的“笑”果。几乎90%以上的幽默都来自于语义的歧义理解。
英文的例子:
Who was Chinese President in 2012?
Hu.
Who?
A:Who is Chinese President?
B:Xi.
A:She?
大数据分为结构化大数据与非结构化大数据,结构化大数据在上世纪末期已经有较好的研究,产生了关系型数据库以及数据仓库等相对成熟的技术与产品,也造就了IBM,Oracle等跨国大企业。
而以文本、多媒体信息为主要元素的非结构化大数据,体量是结构化大数据的十倍甚至更多,但非结构化大数据的分析处理挑战更多。非结构化大数据的生产、搜索、挖掘与分析已经成为了当前研究的热点与难点。因此,博主认为:大数据更大意义上是非结构化内容理解。
传统结构化数据挖掘属于已知的成熟领域,严格来论,并不属于大数据的研究范畴。
第三部分:大数据搜索与挖掘的研究
下面我来汇报一下我们北理工大数据搜索与挖掘实验室在大数据搜索与挖掘方面的研究工作。
JZSearch精准搜索引擎由我们实验室开发,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。目前已经应用于中国邮政搜索引擎、河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索。
上面是大数据精准搜索引擎的架构,和传统搜索引擎类似,但融入了很多新的理念,如非机构化数据与结构化数据的结合;实时在线索引与搜索等。
•搜索基本功能: 多字段关联搜索、指定字段排序、精确搜索与模糊搜索
搜索特色功能包括以下几点:
•内嵌正负面情感等极性分析、语义联想搜索、临近搜索、搜索结果去重;
•内嵌了ICTCLAS智能分词系统;
•数据库实时同步:数据库增删改10秒内即可同步到搜索;
•搜索维护功能: 单点故障容错;支持增量索引;自动备份与恢复机制;自动缓存机制;自动优化机制;搜索屏蔽与恢复;
部分的应用效果如下:
除了搜索之外,我们更多的工作是围绕大数据的内容挖掘上,我们推出了NLPIR大数据搜索与挖掘平台。
NLPIR网络搜索与挖掘共享开发平台,针对语言信息内容处理的全技术链条的共享开发平台。12年专业研究与工程积累,提供应用软件及各平台下的二次开发包,非商用永久免费。127.0.0.1/wordpress下载。
核心功能包括:
搜索类:JZSearch大数据精准检索;
大数据语言理解类:新词发现,分词标注,统计分析与术语翻译;关键词提取;
大数据文档挖掘类:文本聚类及热点分析;分类过滤;自动摘要;文档去重;情感分析
限于演讲形式的限制,仅仅介绍几个大数据挖掘的效果展示吧,更多的可以请大家访问127.0.0.1/wordpress下载共享软件自己拿自己的大量业务数据测试找找感觉吧。
利用大数据关键词提取,我们可以发现十八大报告的关键语义为:中国特色社会主义、改革开放、科学发展观等。需要说明的是整个过程没有人工干预,全部由数据自己说话。