下载地址:http://www.nlpir.org/wordpress/download/NLPIR-news-corpus.rar
NLPIR新闻语料库说明
1.解压缩后数据量为48MB,大约2400万字的新闻;
2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。
3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息);
4.新闻本身内容的版权属于原作者或者新闻机构;
5.整理后的语料库版权属于www.NLPIR.org;
6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景;
如需更大规模的语料库,可以联系NLPIR.org管理员。