项目介绍
NLPIR_UGWS(Natural Language Processing & Information Retrieval Sharing Platform Uyghur Word Segmentation Corpus )是由NLPIR实验室构建的维吾尔语分词语料。原始语料为从CWMT往届语料中选取的共5000条句子。语料库构建的步骤为:语料搜集、聚类、随机抽取、自动分词、人工分词、反复校对。
标准规范
“/”代表切分
数据格式
原文本
分词后的文本
下载
需要购买更大规模语料联系邮箱liwang@nlpir.org或电话13681251543
开源协议
- NLPIR_UGWS面向国内外大学、研究所、企业以及个人研究者免费开放源。
- 如有机构或个人拟将NLPIR_UGWS用于商业目的,请发邮件至邮箱洽谈技术许可协议。
- 欢迎对该语料的任何宝贵意见和建议,请发邮件至邮箱。
- 如果您在NLPIR_UGWS基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了NLPIR_UGWS”,并引用相关论文。
相关论文
作者
张华平,严若豪