孙乐博士-中科院软件所研究员

一、基本信息

姓名：	孙乐
职务：
职称：	研究员
性别：	男
联系电话：	010-62661512
电子邮件：	sunle@iscas.ac.cn
所在部门：	基础软件国家工程研究中心
通讯地址：	北京中关村南四街4号（北京8718信箱）中国科学院软件研究所
邮政编码：	100190
个人主页：	http://www.icip.org.cn/lesun/index.html

二、目前主要研究方向及简介

主要研究方向：下一代文本信息检索模型、辅助机器翻译算法、跨语言信息检索、文本分类、汉语语义理解模型等。目前在研课题：国家自然科学基金项目2项，国家863项目2项，国家语委项目1项。

在研项目简介：
自然科学基金重点项目（与哈工大、清华合作）：下一代信息检索研究
课题摘要：下一代搜索引擎的一个突出特点是个性化，本课题围绕个性化信息检索展开研究。个性化信息检索是以用户为中心的信息检索技术，它获取以多种形式表达的用户需求（包括显式的、隐式的以及相关用户的需求），并综合利用这些用户信息，提高信息检索系统的性能。本课题在理论方面，以用户为中心的用户参考文档模型和基于用户需求分析的网页价值模型；在个性化用户信息挖掘方面，从个人、群体和整体三个线索对用户的兴趣、检索偏好、社会关系网络和宏观用户行为进行挖掘；将从多个信息源采集到的信息集成在一起，支持个性化信息检索过程。在个性化检索系统的评价方法方面，构建人工标注的标准评测集，同时展开基于用户行为分析进行自动评价的探索。在理论研究的基础上，本课题选择了客户端隐式个性化检索和协同式个性化推荐作为应用实例。本课题力争在个性化检索的计算理论和核心技术上有所突破。

自然科学基金项目（独立承担）：基于NLP的高精度文本检索模型研究
课题摘要：文本检索系统的查询条件和文档集都是由自然语言构成的。由于传统文本检索系统本质上只是将文本看作一组无序词串，利用简单的词频统计来模糊计算相关性，因此，传统检索系统面临许多无法解决的问题。同时，一些研究表明将相对复杂和精确的自然语言处理（NLP）技术直接（浅层）应用于传统检索系统并不能带来性能的明显的改善。本申请书提出的基于NLP的高精度文本检索模型研究，是以NLP技术与信息检索中的语言模型方法的深层次融合为出发点，主要探讨不同于传统IR模型的能够融入NLP技术的新的语言模型检索方法，研究这些不同层次的NLP技术对IR性能的影响，并期望在比较后获得相对最佳的融合模型。本项目试图建立NLP与IR之间的紧密的联系，来系统地揭示一些客观现象。

863重点项目（与计算所、哈工大、厦门大学、自动化所合作）：面向跨语言搜索的机器翻译关键技术研究
课题摘要：本课题主要以统计机器翻译方法为关键技术来开展跨语言信息检索的研究。主要研究内容如下：第一，翻译模型研究：探索词汇、句法信息及语义信息的结合，研究融入结构知识的翻译模型；第二，翻译知识获取研究：针对各种不同的翻译模型，研究翻译知识的获取算法；第三，解码算法研究：研究全局优化与局部优化的结合方法，建立启发式搜索与动态规划等多种策略相结合的高效、智能搜索策略；第四，跨语言检索研究：研究查询语句翻译与检索相融合的跨语言信息检索模型，检索结果翻译与用户反馈相结合的查询反馈模型，以及跨语言检索系统的实用化问题；第五，系统实现：探索合理的集成机器翻译的跨语言搜索系统总体架构。

863项目（独立承担）：大规模网络文本数据的语义理解和分类技术
课题摘要：本课题提出的面向信息检索的网络文本数据理解和分类研究，拟采用自然语言理解的关键技术对文本数据进行浅层的语义理解，在浅层理解的基础上通过文本语义特征和文本网络特征相融和的新分类算法进行文本分类，分类后的网络文本数据可以帮助搜索引擎用户高效地获取相关信息；同时，通过设定不良信息类别，可以从源头上阻止这类信息的传播。由于视频检索中包含图像、声音、文字等信息，图片中包含文字说明，文字信息是相对比较可靠的分类依据，因此，该技术也可以应用于对图片、视频等多媒体数据的分类和理解。课题的主要研究内容包括网络文本的正规化（网络非规范文本的去噪处理）、网络文本的浅层语义理解（汉语命名实体识别、实体间语义关系识别、句子级事件识别、篇章级发文目的识别以及上述各级精加工语料标注规范的研究）、文本语义特征和文本网络特征相融和的分类算法以及大规模网络数据分类效率的提高等。

三、学习经历

1998年博士毕业于南京理工大学
1998年至2000年在中国科学院软件研究所，博士后，从事辅助翻译研究

四、工作经历

2001年1月至2003年2月中国科学院软件研究所副研究员中心副主任
2003年3月至2003年9月英国Birmingham大学语料库研究中心访问学者
从事汉英平行语料库研究
2003年10月至2004年11月中国科学院软件研究所副研究员中心副主任
2004年12月至2005年12月加拿大Montreal大学计算机系访问学者
从事高精度和个性化信息检索研究。
2005年12月——至今中国科学院软件研究所副研究员

五、社会兼职

中国中文信息学会秘书长
中文信息学报副主编
中文信息学会内容安全与信息检索专委会委员
人工智能学会自然语言处理专委会委员
ACL (the Association for Computational Linguistics) Member
ACM SIGIR（Special Interest Group on Information Retrieval）Member
2003、2004和2005年863信息检索和文本分类测评的组织者
2008国际测评NTCIR-7MOAT中文简体任务的组织者
国际计算语言学大会（COLING2010）组织委员会主席

六、研究成果与获奖情况

在国内外主要刊物和会议上共发表论文50多篇，软件登记5项，软件专利3项，已经培养博士4名，硕士12名。曾获2007年中国科学院软件研究所优秀导师。

七、代表论著

期刊：
[1]黄瑞红，孙乐，冯元勇，黄云平，基于核方法的中文实体关系抽取研究，中文信息学报，22（5），pp.102-108, 2008
[2] 李文波，孙乐，张大鲲. 基于Labeled-LDA 模型的文本分类新算法. 计算机学报，pp.620-627，31(4)，2008
[3] 李文波，孙乐，诺明花，吴健. 基于核方法的敏感信息过滤的研究. 通信学报，pp.57-62，29(4)，2008
[4] 冯元勇，孙乐，张大鲲，李文波. 基于单字提示特征的中文命名实体识别快速算法，中文信息学报，22(1), 2008
[5] 冯元勇，孙乐，董静，李文波. 基于分类信心重排序的中文共指消解研究，中文信息学报，21(6): 22-28. 2007
[6] LIU Qun, WANG Xiangdong, LIU Hong, SUN Le, TANG Sheng, XIONG Deyi, HOU Hongxu, LV Yuanhua, LI Wenbo, LIN Shouxun, QIAN Yueliang，Introduction to HTRDP evaluations on Chinese information processing and intelligent human-machine interface, Frontiers of Computer Sciences in China, Vol.1, No.1, Feb.2007
[7] 董静，孙乐，冯元勇,黄瑞红，中文实体关系抽取中的特征选择研究，中文信息学报，2007,21(4):80-85
[8] 张玮，孙乐，冯元勇，李文波，黄瑞红，词汇搭配和用户模型在拼音输入法中的应用，中文信息学报，2007，21(4):105-110
[9] 张大鲲，张炜, 冯元勇，孙乐“基于非连续短语的统计翻译模型研究”，中文信息学报，2007，21（1）
[10] 张俊林，刘洋，孙乐，刘群, “2005年度863 信息检索评测方法研究和实施”, 中文信息学报，2006
[11] 张俊林，孙乐, 孙玉芳“一种改进的基于记忆的自适应汉语语言模型”，中文信息学报，2005，19（1）
[12] 曲为民，张俊林，孙乐，孙玉芳，“Difx：利用动态索引算法实现高效的XML数据查询”，计算机研究与发展，2005 Vol.42 No.11
[13] 曲为民，孙乐，孙玉芳，“XML数据查询中值匹配查询代价估计算法的研究”，软件学报，2005年4月，16（4）
[14].张俊林，孙乐，孙玉芳，“基于主题语言模型的中文信息检索系统研究”，中文信息学报，2005，19（3）
[15].张俊林,曲为民,孙乐,孙玉芳 “一种改善的基于语言模型的中文检索系统研究”, 中文信息学报，2004,18 (2)
[16].曲卫民，张俊林，孙乐，“基于主题的汉语语言模型的研究”，《计算机研究与发展》2003，Vol, 40, No.9, p1368~1374
[17] Qu Wei-min, Zhang Jun-lin, Sun Le, Sun Yu-fang, An Efficient Indexing and Querying Algorithm for Large-scale XML Data, 《软件学报》, 2003，Vol.14, p97~104
[18] 闽金明,孙乐,张俊林,重新审视跨语言信息检索, 中文信息学报, 2006，Vol 20（4）
[19] .曲为民，张俊林，孙乐，孙玉芳，基于记忆的中文自适应语言模型的研究，中文信息学报，2003,Vol 17 (5)
[20] 曲为民，孙乐，孙玉芳，“半结构化中文信息检索中查询结果相关度算法的研究”，中文信息学报，2004,18（4）
[21] 张永臣，孙乐，等中文信息学报，“基于数据的特定领域双语词典抽取”，中文信息学报，2006,20（2）
[22] 冯元勇，孙乐，张大鲲，李文波. 《基于小规模尾字特征的中文命名实体识别研究》，电子学报

国际会议：
[1] Dakun Zhang, Le Sun, Wenbo Li, A Structured Prediction Approach forStatistical Machine Translation, IJCNLP’2008(poster), pp. 649-654. Hyderabad,India, 2008
[2] Wenbo Li, Le Sun, etc. Smoothing LDA Model for Text Categorization. 4th AsiaInformation Retrieval Symposium (AIRS’2008), LNCS 4993, pp. 83–94, Harbin,2008
[3] Li Jing, Le Sun, A Lexical Chain Approach for Query-focused Update-style Multi-document Summarization, AIRS 2008, LNCS4993, pp.310-320
[4] Li Jing, Le Sun, Kit Chun Yu, J. Webster, A Query-focused Multi-document Summarizer based on Lexical Chains, DUC workshop, 2007
[5] Ruihong Huang, Le Sun,Yuanyong Feng, Study of kernel-based Methods for Chinese Relation Extraction, AIRS 2008, LNCS
[6] Yuanyong Feng, Ruihong Huang, Le Sun, Two-step Chinese Named Entity Recognition Based on Conditional Random Fields, Proceedings of SIGHAN Workshop, 2007
[7] Ruihong Huang, Longxi Pan, Le Sun, ISCAS in Opinion Analysis Pilot Task: Experiment with Sentimental Dictionary based Classifier and CRF Model, Proceedings of NTCIR Workshop Meeting, Tokyo, Japan, May, 2007
[8]Yuanhua Lv, Le Sun, etc. An Iterative Implicit Feedback Approach to Personalized Search， Proceeding of COLING/ACL2006，Sydney
[9]Yuanyong Feng. Le Sun. Yuanhua Lv, Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields Models Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, 2006，Sydney
[10]Quan Zhou, Le Sun, Yuanhua Lv, ISCAS at DUC06, Proceeding of the Document Understanding Conferences (DUC) 2006
[11] Jinming Min, Le Sun and Junlin Zhang,ISCAS in English-Chinese CLIR at NTCIR-5, Proceedings of the Fifth NTCIR Workshop on Research in Information Access Technologies Information Retrieval, Question Answering and Summarization, Tokyo Japan, 2005.
[12] Quan Zhou, Le Sun, Jian-Yun Nie, A Multi-Document Summarizer based on Document Index Graphic and Lexical Chains, Proceeding of the Document Understanding Conferences (DUC) 2005,10
[13] Junlin Zhang, Le Sun, Using the Web Corpus to Translate the Queries in Cross-Lingual Information Retrieval, 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. Oct., 2005
[14] Yuanyong Feng, Le Sun and Julin Zhang, Early Results for Chinese Named Entity Recognition Using Conditional Random Fields Model, HMM and Maximum Entropy, 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. Oct., 2005.
[15] Junlin Zhang, Le Sun, Quan zhou,A Cue-based Hub-Authority Approach for Multi-Document Text Summarization, 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. Oct., 2005.
[16] Zhang Junlin, Sun le, Lv Yuanhua,Zhang Wei Relevance Feedback.by Exploring the Different Feedback Source and Collection Structure Proceeding of the Text REtrieval Conference (TREC).TREC 2005
[17] Sun le, Zhang Junlin, Sun Yufang, ISCAS at TREC2004:HARD Track. Proceeding of the Text REtrieval Conference (TREC).TREC 2004
[18] Zhang Junlin, Sun Le , Qu Weimin, Sun Yufang. A Trigger Language Model-based IR system, The 20th International Conference on Computational Linguistics(COLING2004). Geneva, Switzerland, Vol.1, pp. 680-686, Aug, 2004
[19] Zhang Junlin, Sun Le , Yongchen Zhang, Applying Language Model into IR Task, NTCIR Workshop Fourth Meeting,2004.
[20] Zhang JL, Sun Le, Qu WM, et al., A three level cache-based adaptive Chinese language model, 1st International Joint Conference on Natural Language Processing (IJCNLP 2004), MAR 22-24, 2004
[21] Zeng Wu, Lin Du, Le Sun, Shiwei Ye TREC12 HARD Track at ISCAS, Proceeding of the Text REtrieval Conference (TREC) TREC 2003
[22] Sun Le, Qu Wei-min, Xue Song, Constructing of a Large-Scale Chinese-English Parallel Corpus, In Coling2002, The 3rd Workshop on Asian Language Resources and International Standardization, TaiWan, 2002
[23] Zhang Jun-lin Zhang，Sun Le, Qu Wei-min, Du Lin, Xue Song, ISCAS IN NTCIR-3, NTCIR-3, Tokyo, Japan, 2002
[24] Sun Le, Zhang YiBo, Zhang JunLin, Sun YuFang, PECAT: A Computer-Aided Translation Tool Based On Bilingual Corpora, Proceeding of the IEEE SMC 2001, Tucson, Arizona,USA, Oct. 7-10, 2001, p927~932
[25] Sun Le, Zhang Junlin, Qu Weiming, Sun Yufang, Evaluation of an English-Chinese CLIR Experimental System Based on Bilingual Dictionary, International Conference on Chinese Computing, Singapore, Nov. 2001
[26] Zhang Yibo, Sun Le, Du Lin, Jin Youbing, Sun Yufang, ISCAS’ Text Retrieval in NTCIR Workshop II, Proceedings of the Second NTCIR Workshop Research in Chinese & Japanese Text Retrieval and Text Summarization, Tokyo, Japan, pp.146-153， Mar. 7-9, 2001

著作：

Daniel Jurafsky & James H. Martin，冯志伟孙乐译《自然语言处理综论》，电子工业出版社， 2005年6月，587页 (SPEECH and LANGUAGE PROCESSING: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition),

自然语言处理与信息检索共享平台

Natural Language Processing & Information Retrieval Sharing Platform 自然语言处理、大数据实验室、智能语义平台汉语分词、中文语义分析、中文信息处理、语义分析系统、中文知识图谱、大数据分析工具

About the Author: nlpir

发表回复取消回复

You May Also Like

张华平

Kevin Zhang or Huaping Zhang

About the Author: nlpir

发表回复 取消回复

发表回复取消回复