2021年10月,北理工NLPIR团队以总平均分50.631位列CIEC-CTC 2021 (Chinese Text Correction)决赛评测第四名,在资格赛获取第二名,在一百多家参赛队伍中脱颖而出。
CTC2021由中国人工智能学会主办,科大讯飞股份有限公司组织, 认知智能国家重点实验室(科大讯飞)、哈尔滨工业大学社会计算与信息检索研究中心承办。比赛选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力,为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供了一个良好的交流平台。
该赛题评测覆盖了多种错误类型,有拼写错误,包括别字及别词;语法错误,包括冗余、缺失、乱序;语病错误,包括语义重复及句式杂糅等等,全面体现了自然语言处理的技术水平。自2021年6月10日开赛以来,包括阿里、网易、京东等企业以及清华大学、北京大学等高校的124支队伍报名参赛,其中42队通过资格赛进入决赛,经过决赛的激烈角逐,最终评选出冠军1队、亚军2队、季军3队。
NLPIR中文文本纠错系统由蔡佳豪同学主要开发,张华平老师主要指导。NLPIR文本纠错技术已经获得了北京市自然科学基金的项目支持,在中英文音形码、语法纠错、结合Bert预训练语言模型等多个技术点上的理论研究与技术实现上有重要创新突破等。