随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论、影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象。如:三鹿奶粉事件、南京市江宁区房产局局长周久耕 “最牛房产局长”事件、 “王石捐款门”事件、 “拍虎”英雄周正龙事件、强生婴幼儿产品质量问题等。
很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作。笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研究者,用户、各类专家以及打着舆情旗号炒作造势的商业公司,评审过几乎所有的所谓“舆情系统”。感觉鱼龙混杂,炒作成分过多,忽悠的太离谱,误国误民误投资者累见不鲜,甚至花样都没有太多创新。某跨国公司号称为FBI等服务,舆情监测能力超强,演示起来超级漂亮,忽悠了很多国家级机构,但某机构4年前花巨资(至少300万)购买之后,至今一直荒废在机房,全部打水漂。某公司本身拿了一套开源的采集检索系统,也号称是舆情监测系统,最后也所赚颇丰。类似的案例太多太多,笔者帮不少单位处理了很多类似的烂尾工程,看到了太多专家忽悠人(所谓“流氓有文化”),非常痛心,痛心国家有限的投入被滥用,痛心客户一腔热血换来一夜凄凉。
人们在舆情监测方面往往被别有用心的商业机构宣传所误导,下面笔者结合多年潜心的舆情计算研究经历,避开各种技术名词,尝试从网络舆情的四大要素与评价进行阐述,以正视听。
网络舆情监测主要包括四大要素及其对应的评估方法:
1.舆情信息源:主要包括通道类型、信息源广度、媒体类型三个方面
舆情通道类型有:普通网页、新闻通道、论坛通道、博客通道、跟帖、回帖;论坛、博客等时效性强的网站才是舆情监测的重点,而这类网站的采集往往需要模拟人正常浏览的方式,有指导的进行定向跟踪、防刷新以及Javascript技术,与无指导的网页漫爬(Crawling)相比,完全不是一个层面的问题,技术挑战极大,中科院有一个十余人的垂直采集研究组,耗时3年多才解决了大部分问题。
信息源广度指的是每一类通道中,能否覆盖绝大部分网站或者频道,能否采集主流的网站,比如天涯、新浪博客,
媒体类型主要包括文本、图片、音视频等。
实际上,绝大部分舆情监测系统的信息源获取都是采用传统的网页采集技术,涉及到复杂的动态新型网页的时候,基本上都是采用网页采集外加规则配置的模式,针对几个专门配置好的论坛板块,进行采集分析可以保证演示效果,但这类系统投入实用的时候,业务部门往往会发现很难扩展,希望监测关键数据源的时候,手工配置量惊人,最终反而不如人工收集。
具体评价时,需要了解的问题包括:信息通道是否丰富、是否可以快速地配置信息源、是否覆盖主流的论坛和博客、覆盖的网站的具体规模,以及每天的采集量,是否支持Javascript?是否支持音视频等。
2.舆情要素元信息:主要包括文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等;
舆情要素元信息是舆情判别的依据,仅包括正文实际上仅能进行检索,和传统的搜索引擎没有本质的区别。舆情要素元信息涉及到网络信息提取技术,即从各类复杂的网页中提取各类属性字段,技术挑战在于网页形式多样,而各类属性分布特点千差万别,需要有自动判别与分析的技术,当前主要系统都是依靠严格的规则进行提取的,其中的问题在于设置的模版规则可扩展性差,而且网站本身会经常性的调整模版。好的舆情系统能跟自动生成模版的模版,人工配置几分钟就可以完成,可扩展性强,能自动适应网页的变化;
具体评价时,需要了解的问题包括:舆情要素元信息包括哪些字段,点击回复等用户行为特征是否实时更新?如何配置模版,是否复杂等。
3.舆情分析;
舆情分析牵涉到热点话题识别、转载识别、多文档摘要、倾向性分析、文本聚类与分类等功能。
网络热点话题发现是很多舆情监测系统舆情分析的卖点,但是主要问题在于热点发现的速度很慢,而且热点滞后严重,往往是流行了好几天才发出来,另外,找出来的热点也仅仅是印证当前的热点,实用性不大,舆情热点的表示与统计分析才是关键的重点。舆情热点的表示往往是词不达意,缺乏摘要提示,这里面牵涉到多文档摘要以及舆情时间趋势和空间发布的综合舆情分析;
转载识别是识别文章的转载路径(转载过程中内容实际上往往有很多编辑修改过程),根据笔者的研究,新闻平均转载次数超过3次,有的高达几百次。当下的系统往往是依靠签名算法或者标题相同即认为是转载,这两种方法都有很多的问题。关键的技术是内容语义指纹的识别,语义指纹作为代表一篇文章的关键特征,依靠语义指纹进行转载的识别。
倾向性分析指的是识别文章对具体话题和人物褒贬态度,这个功能很多都是噱头,真正投入使用的不多,因为其中的自然语言理解技术难度非常大,中科院自然语言处理组在国家863的支持下,研究了4年多,才完成一个初步的原型,最近的使用略有进步,但还没有到完善的地步。
网络舆情监测中的文本分类聚类与传统的方法差别很大,关键问题是要按照客户的需求进行定制,需要综合各类舆情要素元信息与内容统计特征,全面计算。一般的舆情系统存在可扩展性差、效率低等问题。
具体评价时,需要了解的问题包括:舆情分析热点识别的效率以及时效性、倾向性分析的准确性、转载识别的准确性、多文档摘要的流利程度等。
4.舆情预警
舆情预警是指:一旦出现危害客户利益的信息或者情报,即可进行预警通知,同时对舆情预警后续状态进行检测。舆情预警要求客户需求可以方便定制,现在的系统往往是采用关键词匹配的方式,其准确性相对差,预警效率低下,最后反而降低了舆情响应的及时性。舆情预警涉及到了兴趣相似度计算与反馈的关键技术,要求综合舆情要素挖掘与内容相似度计算等综合报警,报警方式包括弹屏、自动发送Email、发送短信等。预警后对用户的处理效果进行实时检测。
具体评价时,需要了解的问题包括:如何设置预警内容、具体预警方式等。
【作者介绍】
张华平,北京理工大学网络搜索挖掘与安全实验室负责人,2005年获得中科院计算机博士学位,副研究员,研究生导师,2010年钱伟长中文信息处理科学技术奖一等奖获得者,“百星计划”首批入选者;同时担任首都师大兼职硕导,辽宁师大客座教授,中国计算机学会高级会员,北京市重点产业知识产权联盟专家,北京市科委评审专家,中关村管委会技术评审专家,先后获得计算所所长特别奖,中科院院长奖。主要研究领域为:网络舆情计算研究,先后主持了国家863等舆情相关的课题6项,研制的天玑舆情系统已经广泛地应用于中国证监会、银监会、广电、工信部等多家单位,已经成为实际的业务系统。