基于聚团词的大规模文本转载识别算法

摘要：文本转载识别是指从大规模文本库中检测出内容相同或接近的文档集合，在热门文章检测、搜索结果凝练、抄袭识别等诸多应用上，存在普遍的需求。随着网络文本的变异，文本转载的形式日趋多样化，传统算法很难有效解决当下的识别要求。该篇文章提出了基于聚团词的大规模文本转载识别算法，其基本思路为：依据词语的分布属性，识别并提取聚团词，并作为关键特征以表征文本，随后对文本集进行扩展线性比较与多维比较，最终计算出转载识别结果。实验表明聚团词算法在准确率、召回率与效率上有较高的综合性能。