一、基本信息 | ||||||||||||||||||||||
| ||||||||||||||||||||||
二、目前主要研究方向及简介 | ||||||||||||||||||||||
主要研究方向:下一代文本信息检索模型、辅助机器翻译算法、跨语言信息检索、文本分类、汉语语义理解模型等。目前在研课题:国家自然科学基金项目2项,国家863项目2项,国家语委项目1项。
在研项目简介: | ||||||||||||||||||||||
三、学习经历 | ||||||||||||||||||||||
1998年博士毕业于南京理工大学 1998年至2000年在中国科学院软件研究所,博士后,从事辅助翻译研究 | ||||||||||||||||||||||
四、工作经历 | ||||||||||||||||||||||
2001年1月至2003年2月 中国科学院软件研究所 副研究员 中心副主任 2003年3月至2003年9月 英国Birmingham大学 语料库研究中心访问学者 从事汉英平行语料库研究 2003年10月至2004年11月 中国科学院软件研究所 副研究员 中心副主任 2004年12月至2005年12月 加拿大Montreal大学 计算机系 访问学者 从事高精度和个性化信息检索研究。 2005年12月——至今 中国科学院软件研究所 副研究员 | ||||||||||||||||||||||
五、社会兼职 | ||||||||||||||||||||||
中国中文信息学会 秘书长 中文信息学报 副主编 中文信息学会 内容安全与信息检索专委会委员 人工智能学会 自然语言处理专委会委员 ACL (the Association for Computational Linguistics) Member ACM SIGIR(Special Interest Group on Information Retrieval)Member 2003、2004和2005年863信息检索和文本分类测评的组织者 2008国际测评NTCIR-7MOAT中文简体任务的组织者 国际计算语言学大会(COLING2010)组织委员会主席 | ||||||||||||||||||||||
六、研究成果与获奖情况 | ||||||||||||||||||||||
在国内外主要刊物和会议上共发表论文50多篇,软件登记5项,软件专利3项,已经培养博士4名,硕士12名。曾获2007年中国科学院软件研究所优秀导师。 | ||||||||||||||||||||||
七、代表论著 | ||||||||||||||||||||||
期刊: [1]黄瑞红,孙乐,冯元勇,黄云平,基于核方法的中文实体关系抽取研究,中文信息学报,22(5),pp.102-108, 2008 [2] 李文波,孙乐,张大鲲. 基于Labeled-LDA 模型的文本分类新算法. 计算机学报,pp.620-627,31(4),2008 [3] 李文波,孙乐,诺明花,吴健. 基于核方法的敏感信息过滤的研究. 通信学报,pp.57-62,29(4),2008 [4] 冯元勇,孙乐,张大鲲,李文波. 基于单字提示特征的中文命名实体识别快速算法,中文信息学报,22(1), 2008 [5] 冯元勇,孙乐,董静,李文波. 基于分类信心重排序的中文共指消解研究,中文信息学报,21(6): 22-28. 2007 [6] LIU Qun, WANG Xiangdong, LIU Hong, SUN Le, TANG Sheng, XIONG Deyi, HOU Hongxu, LV Yuanhua, LI Wenbo, LIN Shouxun, QIAN Yueliang,Introduction to HTRDP evaluations on Chinese information processing and intelligent human-machine interface, Frontiers of Computer Sciences in China, Vol.1, No.1, Feb.2007 [7] 董静,孙乐,冯元勇,黄瑞红,中文实体关系抽取中的特征选择研究,中文信息学报,2007,21(4):80-85 [8] 张玮,孙乐,冯元勇,李文波,黄瑞红,词汇搭配和用户模型在拼音输入法中的应用,中文信息学报,2007,21(4):105-110 [9] 张大鲲,张炜, 冯元勇,孙乐“基于非连续短语的统计翻译模型研究”,中文信息学报,2007,21(1) [10] 张俊林,刘洋,孙乐,刘群, “2005年度863 信息检索评测方法研究和实施”, 中文信息学报,2006 [11] 张俊林,孙乐, 孙玉芳“一种改进的基于记忆的自适应汉语语言模型”,中文信息学报,2005,19(1) [12] 曲为民,张俊林,孙乐,孙玉芳,“Difx:利用动态索引算法实现高效的XML数据查询”,计算机研究与发展,2005 Vol.42 No.11 [13] 曲为民,孙乐,孙玉芳,“XML数据查询中值匹配查询代价估计算法的研究”,软件学报,2005年4月,16(4) [14].张俊林,孙乐,孙玉芳,“基于主题语言模型的中文信息检索系统研究”,中文信息学报,2005,19(3) [15].张俊林,曲为民,孙乐,孙玉芳 “一种改善的基于语言模型的中文检索系统研究”, 中文信息学报,2004,18 (2) [16].曲卫民,张俊林,孙乐,“基于主题的汉语语言模型的研究”,《计算机研究与发展》2003,Vol, 40, No.9, p1368~1374 [17] Qu Wei-min, Zhang Jun-lin, Sun Le, Sun Yu-fang, An Efficient Indexing and Querying Algorithm for Large-scale XML Data, 《软件学报》, 2003,Vol.14, p97~104 [18] 闽金明,孙乐,张俊林,重新审视跨语言信息检索, 中文信息学报, 2006,Vol 20(4) [19] .曲为民,张俊林,孙乐,孙玉芳,基于记忆的中文自适应语言模型的研究,中文信息学报,2003,Vol 17 (5) [20] 曲为民,孙乐,孙玉芳,“半结构化中文信息检索中查询结果相关度算法的研究”,中文信息学报,2004,18(4) [21] 张永臣,孙乐,等中文信息学报,“基于数据的特定领域双语词典抽取”,中文信息学报,2006,20(2) [22] 冯元勇,孙乐,张大鲲,李文波. 《基于小规模尾字特征的中文命名实体识别研究》,电子学报 国际会议: [1] Dakun Zhang, Le Sun, Wenbo Li, A Structured Prediction Approach forStatistical Machine Translation, IJCNLP’2008(poster), pp. 649-654. Hyderabad,India, 2008 [2] Wenbo Li, Le Sun, etc. Smoothing LDA Model for Text Categorization. 4th AsiaInformation Retrieval Symposium (AIRS’2008), LNCS 4993, pp. 83–94, Harbin,2008 [3] Li Jing, Le Sun, A Lexical Chain Approach for Query-focused Update-style Multi-document Summarization, AIRS 2008, LNCS4993, pp.310-320 [4] Li Jing, Le Sun, Kit Chun Yu, J. Webster, A Query-focused Multi-document Summarizer based on Lexical Chains, DUC workshop, 2007 [5] Ruihong Huang, Le Sun,Yuanyong Feng, Study of kernel-based Methods for Chinese Relation Extraction, AIRS 2008, LNCS [6] Yuanyong Feng, Ruihong Huang, Le Sun, Two-step Chinese Named Entity Recognition Based on Conditional Random Fields, Proceedings of SIGHAN Workshop, 2007 [7] Ruihong Huang, Longxi Pan, Le Sun, ISCAS in Opinion Analysis Pilot Task: Experiment with Sentimental Dictionary based Classifier and CRF Model, Proceedings of NTCIR Workshop Meeting, Tokyo, Japan, May, 2007 [8]Yuanhua Lv, Le Sun, etc. An Iterative Implicit Feedback Approach to Personalized Search, Proceeding of COLING/ACL2006,Sydney [9]Yuanyong Feng. Le Sun. Yuanhua Lv, Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields Models Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, 2006,Sydney [10]Quan Zhou, Le Sun, Yuanhua Lv, ISCAS at DUC06, Proceeding of the Document Understanding Conferences (DUC) 2006 [11] Jinming Min, Le Sun and Junlin Zhang,ISCAS in English-Chinese CLIR at NTCIR-5, Proceedings of the Fifth NTCIR Workshop on Research in Information Access Technologies Information Retrieval, Question Answering and Summarization, Tokyo Japan, 2005. [12] Quan Zhou, Le Sun, Jian-Yun Nie, A Multi-Document Summarizer based on Document Index Graphic and Lexical Chains, Proceeding of the Document Understanding Conferences (DUC) 2005,10 [13] Junlin Zhang, Le Sun, Using the Web Corpus to Translate the Queries in Cross-Lingual Information Retrieval, 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. Oct., 2005 [14] Yuanyong Feng, Le Sun and Julin Zhang, Early Results for Chinese Named Entity Recognition Using Conditional Random Fields Model, HMM and Maximum Entropy, 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. Oct., 2005. [15] Junlin Zhang, Le Sun, Quan zhou,A Cue-based Hub-Authority Approach for Multi-Document Text Summarization, 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. Oct., 2005. [16] Zhang Junlin, Sun le, Lv Yuanhua,Zhang Wei Relevance Feedback.by Exploring the Different Feedback Source and Collection Structure Proceeding of the Text REtrieval Conference (TREC).TREC 2005 [17] Sun le, Zhang Junlin, Sun Yufang, ISCAS at TREC2004:HARD Track. Proceeding of the Text REtrieval Conference (TREC).TREC 2004 [18] Zhang Junlin, Sun Le , Qu Weimin, Sun Yufang. A Trigger Language Model-based IR system, The 20th International Conference on Computational Linguistics(COLING2004). Geneva, Switzerland, Vol.1, pp. 680-686, Aug, 2004 [19] Zhang Junlin, Sun Le , Yongchen Zhang, Applying Language Model into IR Task, NTCIR Workshop Fourth Meeting,2004. [20] Zhang JL, Sun Le, Qu WM, et al., A three level cache-based adaptive Chinese language model, 1st International Joint Conference on Natural Language Processing (IJCNLP 2004), MAR 22-24, 2004 [21] Zeng Wu, Lin Du, Le Sun, Shiwei Ye TREC12 HARD Track at ISCAS, Proceeding of the Text REtrieval Conference (TREC) TREC 2003 [22] Sun Le, Qu Wei-min, Xue Song, Constructing of a Large-Scale Chinese-English Parallel Corpus, In Coling2002, The 3rd Workshop on Asian Language Resources and International Standardization, TaiWan, 2002 [23] Zhang Jun-lin Zhang,Sun Le, Qu Wei-min, Du Lin, Xue Song, ISCAS IN NTCIR-3, NTCIR-3, Tokyo, Japan, 2002 [24] Sun Le, Zhang YiBo, Zhang JunLin, Sun YuFang, PECAT: A Computer-Aided Translation Tool Based On Bilingual Corpora, Proceeding of the IEEE SMC 2001, Tucson, Arizona,USA, Oct. 7-10, 2001, p927~932 [25] Sun Le, Zhang Junlin, Qu Weiming, Sun Yufang, Evaluation of an English-Chinese CLIR Experimental System Based on Bilingual Dictionary, International Conference on Chinese Computing, Singapore, Nov. 2001 [26] Zhang Yibo, Sun Le, Du Lin, Jin Youbing, Sun Yufang, ISCAS’ Text Retrieval in NTCIR Workshop II, Proceedings of the Second NTCIR Workshop Research in Chinese & Japanese Text Retrieval and Text Summarization, Tokyo, Japan, pp.146-153, Mar. 7-9, 2001 著作: Daniel Jurafsky & James H. Martin,冯志伟 孙乐 译 《自然语言处理综论》,电子工业出版社, 2005年6月,587页 (SPEECH and LANGUAGE PROCESSING: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition), |