NLPIR微博内容语料库-23万条

NLPIR微博内容语料库说明
1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据（目前已有数据接近1000万，已经剔除了大量的冗余数据）。
2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和url，如果涉及到的用户需要全面保护个人隐私的，可以Email给张华平博士kevinzhang@bit.edu.cn予以删除，对给您造成的困扰表示抱歉，并希望谅解；
3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR微博语料库，出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。
4.字段说明：
id  文章编号
article  正文
discuss  评论数目
insertTime 正文插入时间
origin  来源
person_id 所属人物的id
time  正文发布时间
transmit 转发

下载地址：http://www.nlpir.org/wordpress/download/weibo_content_corpus.rar

自然语言处理与信息检索共享平台

Natural Language Processing & Information Retrieval Sharing Platform 自然语言处理、大数据实验室、智能语义平台汉语分词、中文语义分析、中文信息处理、语义分析系统、中文知识图谱、大数据分析工具

About the Author: nlpir

发表回复取消回复

You May Also Like

NLPIR_UGWS: 维吾尔语分词语料库

中国外交部例行记者会语料库

About the Author: nlpir

发表回复 取消回复

发表回复取消回复