近日,在北理工大数据实验室张华平博士的带领下,通过不断技术创新研发了LJKeyScanner关键词扫描过滤系统并成功上线,对互联网敏感关键词的挖掘、整理、过滤等操作将起到重要的作用。
在网络日益发达的现在,互联网技术及应用得到了快速的发展,同时也产生了大量的有益信息与造成不稳定因素的信息,并有日益泛滥的趋势,为了网民的思想健康,也为了社会的和谐,在许多对外公共场合下,有些内容是要经过审查才能显示的。在网络审查初期,都是通过人工审核,这种审核方式虽然准确且智能,但与网络文字产生的速度相比,其效率就显示微不足道了!因此,自动化的系统处理方式的需求越来越强烈……
我实验室根据互联网的发展需求研发了LJKeyScanner关键词扫描过滤系统,它是针对互联网关键词敏感搜索的需求,融合了自然语言理解、网络搜索和文本挖掘的技术,具有专业精准、高扩展性和高通用性的特点。可支持文字、数字、特殊符号、繁体字等各种文本关键词的敏感扫描,支持各类数据库实时搜索服务,并支持多语言。
LJKeyScanner关键词扫描过滤系统特点:
1、强大的数据资源
LJKeyScanner关键词扫描过滤系统有十大类型的敏感关键词词典,其中包括FLG、民运、色情、涉毒、涉赌、涉领导人、涉日、政治反动、涉恐怖主义等敏感词典,并包含数十万敏感关键词。这些词典几乎囊括了所有行业里面的敏感关键词,从而可以净化互联网文章环境。
2、先进的技术支持
LJKeyScanner关键词扫描过滤系统采取先进的NLPIR大数据搜索与挖掘系统,可以针对原始文本关键词集进行处理和加工,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。同时,组件可以无缝地融合到客户的各类复杂应用系统之中,可以供Java,C,C#等各类开发语言使用,分词扫描平均速度单机可达20MB/s。
3、广泛的应用场景
LJKeyScanner关键词扫描过滤系统可以运用到广泛的场景,如公安、广播、电视、报刊杂志以及广泛的网络信息内容安全服务;如新闻网站、信息网站文章过滤筛选服务;如虚假新闻、诈骗信息传播的实时过滤服务。
LJKeyScanner关键词扫描过滤系统功能:
1、全文关键词识别及扫描
支持文字、数字、特殊符号、繁体字等各种文本关键词的敏感扫描,对文章全文关键词可以进行繁简体、变形文字、文章标引等要素进行识别。可以设置一组关键词,可实现实时高效的关键词扫描出来。设置一个关键词,可以自动识别扫描各类敏感词的变体,如繁体形式、中间加各类干扰噪音。例如:发票 可以自动匹配 发_*票 及繁体形式。
2、关键词提取
能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。
3、多类别标签
对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
4、自定义的导入用户词表+内置的敏感词库
支持客户自定义导入用户词典,能够提供不同行业的敏感扫描结果。同时,组件内置有十大类型的敏感关键词词典,其中包括色情、涉毒、涉赌、涉恐怖主义等敏感词典。能够满足不同的客户需求。