转载地址:http://news1.xuexigang.com/2012/05/57402.html
张华平博士日前接受《中国远程教育》杂志社专访,相关报道“沙里淘金的网络搜索与挖掘”详见2012年3月杂志。现转载如下(记者:王铁军报道):
沙里淘金的网络搜索与挖掘
网络搜索一直是互联网的核心应用之一,而数据挖掘则是个新兴理念,在中国国际远程教育大会上曾有学者提出,要利用数据挖掘来提升远程教育质量。那么当两者结合到一起时,将会发生什么呢?记者找到了北京理工大学网络搜索挖掘与安全实验室主任张华平博士,请他来就此作一“科普”。
什么是数据挖掘
记者: 您能否给我们介绍一下,什么是数据挖掘吗?
张华平: 数据挖掘,要讲透彻的话实在太复杂了。我们可以分几个层面来大致理解它的意思。
首先,什么叫数据?从我们的角度看,只要能存在于电脑上的我们都可以叫数据,不管它是否混乱无序。比数据再高出一个层面叫信息,在新闻传播学上,信息是“不确定性的消除”,比如一个客户的电话号码。再高一个层面,就是知识。比如我们出去讲课,传达出去的信息很多,但真正能变成学生的知识的,可能只是他们灵机一动的某一点。
数据挖掘,其实就是从杂乱无章的信息中淘金,淘出知识来。而基于网络搜索的数据挖掘,是在社会网络化与网络社会化的大背景下,面向海量异构互联网交互信息,针对特定的情报目标,以信息检索、自然语言处理、网络科学三驾马车为主要手段,基于互联网的群体智慧挖掘提炼出有价值的情报的过程。
记者: 您提到,网络搜索的数据挖掘是基于互联网群体智慧的,请问“群体智慧”要如何理解?
张华平: 俗话说: 三个臭皮匠,顶个诸葛亮,这就是群体智慧。
我用三句话来对群体智慧进行表达:
信息碎片化,导致去精英化,使大众的智慧开始走上前台。
你可以在所有时间欺骗某些人,也可以在某个时间欺骗所有人,但不可能在所有时间欺骗所有人。比如,关于一件事,每个人都只知道一点真实片断,谁都不能单独解答所有的问题,但是当把大家所知道的东西都拼起来,就可以还原出事件的完整面貌了。
互联网海量的群体与信息,导致哪怕百万分之一的小概率事件发生的频率期望值都变得可观察、可度量。现今,只要你在网上留下了一点蛛丝马迹,将来就可能为我所用。互联网搜索便为海里捞针提供了技术手段。
记者: 这样的数据挖掘想必也有它特殊的条件要求吧?
张华平: 是的。网络搜索与挖掘其实就是四步曲: 目标分解,信息收集,分析去噪,情报提炼。据此可以看出,要进行网络搜索与挖掘,也必须具备四个要件。
信息可达——互联网真实记录并可采集抽取到相关的信息,无论深浅,无论真假,无论规模;
群体规模——海量规模确保各类UGC(用户产生的内容)能满足挖掘所需;
目标可解——挖掘目标本身具有可解性,能够进一步分解具体落实;
工具可行——检索工具与分析工具具备可行的计算代价与分析效率。
数据挖掘的应用
记者: 这样还是比较抽象,有没有具体事例来说明一下数据挖掘到底是做什么的?
张华平: 我们知道,沃尔玛每天都在卖很多东西,它们在德国卖东西,会去做分析,它们的专业术语叫关联分析,也就是看你买一种东西的同时还会买什么。沃尔玛发现一个现象,买尿布的人很多都会同时买啤酒,这个规律看上去很难理解,而经过分析才知道,德国男人常常是下班后给孩子买尿布,买尿布的同时他们也要消遣一下,于是就又买了啤酒。这就是数据挖掘出来的很重要的知识,据此,沃尔玛在安排货架时,就把尿布和啤酒摆在一起。看似不相干的两种货物摆在一起之后,许多只买尿布而没想着喝酒的人,也受到了提醒,将啤酒也一起买了。根据这样一点知识,沃尔玛的啤酒销售量就提高了超过15%。
这就是数据挖掘,其实这种挖掘生活中无处不在,许多企业做广告都会用到这个手段。经常从亚马逊上买东西的人会注意到,这个网站会根据你购买和浏览过的商品来猜你的喜好,给你推荐其他商品。这个服务背后,其实就是数据挖掘。
记者: 这些只是基本的数字分析吧?
张华平: 是的,这些是直接根据数据库来分析,而我们做的数据挖掘,更深层次的是文本挖掘,要从文本内容上分析,理解它的语义。再进一步,做网络挖掘,即不再受限于事先汇集好的完整数据库,而是根据网络上的零散数据来进行整理、分析、挖掘。
比如,我们从网民的查询日志中分析网络搜索规律发现: 1千万个查询行为中,大约使用100万个各不相同的关键词,而其中排名前1万的关键词覆盖了90%以上的需求,排名第一的关键词更是覆盖了10%的需求。
记者: 网络搜索与数据挖掘目前在国内有什么实际应用?
张华平: 它在政府舆情、军事信息战、企业竞争情报、个人社交等方面均具有广泛的应用前景。
一个实用案例是中国证监会的网络舆情系统,这是我做的。它会广泛搜集网上各种各样的信息,采集BBS论坛新闻,包括采集微博信息。采完以后进行各种分析提炼,可以发现有什么人在发布虚假信息。
再比如用于地图开发。我们的GPS数据,许多都是由地图厂商那里来的。地图商们总是面临一个问题,某地新盖了一栋楼了,或者搬地方了,或者又多了一家宾馆,等等。地图厂商要获得这些信息,其实是相当耗钱费力的,他们要每天派300辆车在全国各地跑,一直跑一直拍,沿途发现什么地方变化了,或者路断了,就要分析再入库。
用网络搜索和数据挖掘的手段来解决此事就方便许多了。现在是网络时代,例如某地要盖个楼、开家宾馆什么的,一般网上都会有消息发出来,那么就可以用技术手段,从新闻或网友发言中分析挖掘出来。地图商或交管局拿了这个数据,稍微核实一下就能够用来更新自己的数据库。
此外,国内网上的“水军”现在是很厉害的,要炒作什么话题,要把谁捧上去或贬下来,手法多种多样,真是翻手为云覆手为雨。我们就可以通过数据挖掘,辨别出“水军”力量的运作线索。
记者: 与国外的发展应用现状相比,国内这一方面的优势在哪里?
张华平: 国内这方面与具体的业务需求结合得比较好。相关技术跟各种行业需求的结合,即专业化,已经在不同的行业里都取得了成果。目前相比较而言,国外更多是停留在学术上。至于谷歌这样的通用搜索引擎,一旦涉及专业领域就不够准确了。
另一方面,国内基于中文和少数民族语言的搜索与数据挖掘均做得强于国外。
张华平 北京理工大学网络搜索挖掘与安全实验室主任,副教授,研究生导师,研究方向: 自然语言处理、信息检索、信息安全。获得2010年钱伟长中文信息处理科学技术奖一等奖,中科院院长奖,中科院计算所所长特别奖。专著2部,专利3项,国内外论文20余篇。 2000-2005年在中科院计算所硕博连读,获博士学位,研制汉语分词系统ICTCLAS(目前用户数超过20万家),博士期间参与新颖性监测研究,参加TREC 2004 Novelty Track,在国际14家团队中,综合排名第一;2006-2009年,创办中科计算技术转移中心网络智能事业部,先后担任了863、242、中国证监会舆情系统、工信部网络监管、中国移动云计算搜索等重大项目。目前承担了科技部及安全部重大项目。 |
数据挖掘用于远程教育
记者: 您觉得网络搜索与数据挖掘技术在远程教育领域有何用武之地?
张华平: 我对远程教育不是特别了解,但我知道,远程教育这么多年发展下来,已经沉淀了大量的数据,包括大量的文本、作业、评估数据、学生在网上的活动记录,以及办学机构内部管理系统提交的东西。而且老师与学生每天还在网上产生大量的此类数据。这些东西多数是被闲置的。我们可以对这些基本数据进行分析挖掘,然后再在网上进行一些分析和调研,挖掘出一般的规律来,用以提高远程教育的质量,以及未来可能做的增值服务。
我猜想,学校至少可以通过网络搜索与数据挖掘系统,真正了解学生在这些表层数据背后的诉求,也可以把握住学生的行为特征,来增强整个教学过程的控制。
现在的数据挖掘技术,内部往往也包含了种种心理学模型,可以通过某人的一句话,自动分析出其情绪,猜出其政治观点和态度,判断出电脑那端发言者的心理活动。基于此,你便可以采取有针对性的沟通策略。
这些工作,虽然面对面交流时可以由老师进行,但是规模大了以后,比如招了成千上万的学生,老师要准确判断每个学生的状态,把握住每个学生的心理活动,就几乎不可能了,依靠传统的师生交流手段难以实现精准的沟通效果。即使通过呼叫服务,借助电话沟通来提供支持服务,实际上也难以在根本上解决问题,因此无法真正给学生提供优质的个性化的服务。而使用先进的数据挖掘技术,对于这些问题的解决,实现大规模的优质个性化服务,我相信一定是很有帮助的。
对于教育部门也有好处。过去制定政策往往是靠拍脑袋,最大的问题在于对一线情况不了解,即使去调研,也不可能把所有角落都调研到。而调研在科学分析上是不能真实代表整体的,也许你下去调研时就正好调研到了某个特殊群体,把特殊问题当做典型问题了。如果我们把数据挖掘做好,那么调研的过程就可以大大省略,只要把调研思路整理好,其他的大部分工作,数据挖掘都可以代劳。
从网路搜索与挖掘看大众网络行为
记者: 这种技术,对于大众的行为方式会不会产生什么深远影响?
张华平: 在当前的网络形势下,因为只要你在网上活动,在某种意义上来说,你对于别人来说就是透明的。了解到这一点,人们就会意识到,必须要对自己的言行负责了。
你应当对你的网络行为多加小心。有的人,他的学术、他的社会活动在网上都可以是公开的,但他在微博上从来不谈私密性的内容,不谈老婆孩子。这需要大家自己把握这个度。
记者: 现在的网络搜索服务一般都是用户输入搜索条件,然后跳出一大堆链接,让你点进去看页面。而有人提出,网络搜索应该努力做到让用户输入搜索条件之后,不再面对一大堆页面去翻拣,而是直接给出最终答案。请问这两者之间需要跨越的距离有多大?
张华平: 这种服务,在专业领域可以实现,并且已经有了这种服务。但是,通用搜索的领域不可能全部实现这种服务。
你说的这种搜索的专业定位叫“问答式搜索引擎”。人类搜索的梦想,就是问一个问题,直接得到答案,就这么简单,好像用户面对着一个知识渊博的老师,很自然地问答。
事实上,搜索引擎最初设计时就是奔着这个理念去的,但在技术上根本不现实。要是如同苹果的Siri功能那样做成一个玩具,那没有问题,因为那不需要多么精准。但是想要真正实用是不可能的。一些事实性的问答,比如你问“今天几号”,或者“北京一周内的天气如何”这样的问题,都能容易地直接给出答案,但是如果需要逻辑推理的问题就很难实现。
人的知识,到目前为止,并没有一个有效的方法将其全部表现出来。人类5岁小孩的智力,计算机都模拟表达不出来。
记者: 那么,要在教育领域提供更加优质的搜索问答服务,可以做到吗?
张华平: 我本人也上课,我所接触过的学生们,至今为止所问过的所有问题,都没有超出现有的数据库范围。即使是最活跃的研究生,对于学科内容的思考和提问也是如此。这么看来,教育领域倒是可以实现问答式搜索的。
记者: 您也做针对微博的网络搜索与数据挖掘业务。在您眼里,与传统BBS相比,两者表现出来的特征有何区别?
张华平: 传统的BBS和资讯网站,语言的主体特征不明显,原创者少,而微博则带有了明显的个案化特征,用户更放得开。在进行网络搜索与数据挖掘时,前者比后者更难判断。
此外,微博有辟谣功能,谣言传播后有自愈功能,这一点比传统BBS强得多。微博有特殊的传播规律,如果某人在微博上受到谣言伤害,其挽回影响要容易得多。
在本质上,传统BBS是以内容为核心,而微博则是以人为核心。由于对于微博而言,内容只是载体,人的主体色彩太浓,对于数据挖掘工作而言,其无用水分也就少得多。所以,在我看来,微博是个革命性的媒体。
《中国远程教育》(资讯)专稿
作者:北京报道/本刊记者 王铁军
中国远程教育杂志社是教育部核心期刊。