教学目的和要求:
本课程为计算机软件与理论专业研究生的专业基础课。通过本课程的学习,使同学掌握计算语言学的基本理论,了解自然语言处理的常用模型和算法,初步具备从事相关领域研究工作的能力。
内容提要:
第一章 概论
介绍计算语言学的研究对象,研究手段,学科特点,历史趋势等。
第二章 词典
词典编纂,组织,检索等。
第三章 语料库
语料库收集,整理,对齐,检索,基于语料库的知识获取。
第四章 词法分析
正则语法与有限状态自动机,HMM与词性标注,汉语词语切分,未定义词识别等。
第五章 句法分析
各种形式语法理论(短语结构语法,范畴语法,链语法,GB,LFG,HPSG等),句法分析算法(GLR,Chart,PCFG等),病句处理技术,汉语语法分析等。
第六章 语义分析
语义网络,格框架,配价语法,词汇语义,形式语义学基础。
第七章 篇章分析
脚本,规划,话语分析,话题跟踪与探测,向量空间模型技术。
第八章 语言生成
自然语言生成的理论和技术。
第九章 应用系统
机器翻译,自动文摘,信息检索,信息提取等。
主要参考书:
1. James Allen, Natural Language Understanding, The Benjamin/Cummings Publishing Company, Inc., 1995.
2. 翁富良,王野翊,《计算语言学导论》,中国社会科学出版社,1998。
课件链接地址:http://nlp.ict.ac.cn/~liuqun/course/ComputationalLinguistics/lecture_notes.htm