LJCluster汉语文档聚类基础件是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。LJCluster由于满泉博士研发。
该基础件基于核心特征发现技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
在普通PC机器上测试达到300KB/s,普通文本为每秒80个/s。(测试机器配置为Athlon 2.7GHz,内存2GB)
下载地址:http://www.nlpir.org/wordpress/download/LJCluster_packet.rar