NLPIR 500万条twitter内容语料库

NLPIR twitter内容语料库说明

1.NLPIR twitter内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集抽取从twitter中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的500万条数据（目前已有数据接近1亿，已经剔除了大量的冗余与机器信息）

2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和url，如果涉及到的用户需要全面保护个人隐私的，可以Email给张华平博士kevinzhang@bit.edu.cn予以删除，对给您造成的困扰表示抱歉，并希望谅解；

3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR twitter内容语料库，出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。

4.字段格式说明：

语料为mongodb导出的json格式，大约500万条Twitter数据（其中过滤了部分敏感的Twitter状态，占7%左右），每行为一个json对象，对象中一共有三个字段，分别是

user_id 用户的id，我们对语料包中Twitter的用户名进行隐藏操作，取而代之的则是一个标记用户的int值id

text 这条Twitter状态的内容

created_at 此条Twitter状态所发布的时间，为距离格林尼治时间1970年1月1日0时开始所经过的秒数

可以运行以下命令，直接使用mongodb自带的导入程序导入到mongodb

mongoimport -d <数据库名> -c tweets tweets.utf8

下载地址：https://pan.baidu.com/s/1tZMXOHkIILDGdL3zibKXAg(提取码，请关注微博 NLPIR官方微博 http://weibo.com/bigdatasearch，私信获取。)

展示：

自然语言处理与信息检索共享平台

Natural Language Processing & Information Retrieval Sharing Platform 自然语言处理、大数据实验室、智能语义平台汉语分词、中文语义分析、中文信息处理、语义分析系统、中文知识图谱、大数据分析工具

About the Author: nlpir

发表回复取消回复

You May Also Like

NLPIR_UGWS: 维吾尔语分词语料库

中国外交部例行记者会语料库

About the Author: nlpir

发表回复 取消回复

发表回复取消回复