NLPIR_UGWS: 维吾尔语分词语料库

Posted by nlpir 2022-12-29 in Corpus语料库

项目介绍

NLPIR_UGWS(Natural Language Processing & Information Retrieval Sharing Platform Uyghur Word Segmentation Corpus )是由NLPIR实验室构建的维吾尔语分词语料。原始语料为从CWMT往届语料中选取的共5000条句子。语料库构建的步骤为：语料搜集、聚类、随机抽取、自动分词、人工分词、反复校对。

标准规范

“/”代表切分

数据格式

原文本

分词后的文本

下载

维吾尔语分词500条.txt 下载

需要购买更大规模语料联系邮箱liwang@nlpir.org或电话13681251543

开源协议

NLPIR_UGWS面向国内外大学、研究所、企业以及个人研究者免费开放源。
如有机构或个人拟将NLPIR_UGWS用于商业目的，请发邮件至邮箱洽谈技术许可协议。
欢迎对该语料的任何宝贵意见和建议，请发邮件至邮箱。
如果您在NLPIR_UGWS基础上发表论文或取得科研成果，请您在发表论文和申报成果时声明“使用了NLPIR_UGWS”，并引用相关论文。

相关论文

作者

张华平，严若豪

About the Author: nlpir

发表回复取消回复

要发表评论，您必须先登录。