云顶集团/a>

图片
首页
我们
党建
科研
学人
资源
教学
搜索
欢迎您访问语言研究所!

当代汉语语料库建设研讨会综述

作者:张永伟 来源:应用语言学研究室 时间: 2021-12-03
字号:

  2021年12月3日上午,“当代汉语语料库建设研讨会”在中国社会科学院语言研究所召开。会议由中国社会科学院语言研究所语料库暨计算语言学研究中心主办,来自中国社会科学院、北京大学、北京外国语大学、对外经济贸易大学、北京语言大学等机构的20余位专家学者参加了研讨会。

  李爱军副所长主持本次研讨会。张伯江所长在开幕辞中回顾了语言研究所语料库建设的历史,指出语言所的语料库建设起步很早,从20世纪90年代末开始,就在沈家煊研究员的带领下建设了多个不同类型的语料库,尤其是顾曰国研究员研制的多媒体多模态语料库在国内外一直处于领先地位,但是近年来在语料库整合等方面还存在不足。张伯江强调,中国社会科学院和语言研究所目前高度重视语料库建设工作,希望能够汲取各家所长,建设一个分类合理、功能丰富、动态更新的大型汉语语料库。


张伯江研究员致开幕辞

  5位专家学者在研讨会上做了主旨报告。

  北京大学詹卫东教授做了题为“北京大学汉语语料库概况”的报告。北京大学在汉语语料库建设方面做了很多基础性的工作,建设了多个语料库,包括CCL语料库、《人民日报》分词和词性标注语料库、现代汉语语义角色标注语料库、现代汉语中介语语料库等。詹教授重点介绍了CCL在线语料库检索系统的用途、实现细节、新功能,以及北大中文树库的整体情况、建设流程和典型应用。他强调,语言资源建设是基础工作,工程技术保障、理论研究支撑以及应用研究驱动三方面必不可少。


詹卫东教授做报告

  北京外国语大学许家金教授做了题为“北京外国语大学的语料库建设与研究传统”的报告。北京外国语大学的语料库研究起步较早,建设了语言本体、语言教育和语言翻译等多种类型的语料库,并将语料库用于教材编写、辞书编纂、语言教学与研究实践,取得了良好成效。北京外国语大学的语料库研究团队在语料库语言学史和语料库研究方法等方面进行了深入的研究,创办了研究性学术刊物《语料库语言学》,为语料库语言学研究提供了学术交流平台。许教授指出,今后将继续加强多语种语料库的协同建设,同时将进一步推进语料库建设的理论研究。


许家金教授做报告

  对外经济贸易大学刘云教授做了题为“北京话在线语料库平台的建设构想”的报告。他从资源开发、语料库构成、建设难点和对策等方面对北京话语料库的建设做了介绍。北京话语料库平台以元代以来北京话语料为主体,在内容上具有鲜明的特色。平台具有较强的开放性,强调合作与共享。同时关注使用者需求,在易用性上有明显改进。北京话语料库的研制者还把语料库建设与文献资料整理相结合,出版了《早期北京话珍稀文献集成》,今后还将进一步整理出版《早期北京话珍稀文献集成续编》,为早期北京话研究提供丰富的原始素材。


刘云教授做报告

  北京语言大学饶高琦博士做了题为“BCC语料库的建设、发展和思考”的报告。BCC语料库总字数约70亿,是可以全面反映当今社会语言生活的大规模熟语料库。饶博士用丰富的例证,从检索功能、检索式说明、资源下载等方面对BCC语料库做了全面介绍,还从语料选取、数据脱敏、偏见弃治、数据基础设施建设和语料库标准化等方面对语料库研制面临的问题进行了反思。


饶高琦博士做报告

  中国社会科学院语言研究所张永伟副研究员做了题为“当代汉语语料库的建设构想”的报告。对目前正在进行的语料库建设项目进行了介绍。该项目的目标是建成具有国家级水准的当代大规模动态平衡汉语语料库,与现有语料库在内容和功能上形成互补。项目拟设立“语料库建设理论与应用研究”“语料采集”“语料精加工”“语料自动加工处理”“语料库协同管理系统研制”“语料库检索系统研制”等子课题,张永伟对这六个子课题的内容及相互关系进行了梳理和阐述。


张永伟副研究员做报告

  报告结束后,在座的学者就语料库建设的政策、技术、方法等问题进行了进一步的讨论。大家一致认为,语料库建设的顶层设计工作非常重要,各研制单位应统一标准、加强互动、协同发展。本次研讨会对进一步深化语料库建设的理论研究,促进语料库建设的发展具有重要意义。本次活动是语言研究所语料库暨计算语言学研究中心系列学术活动之一,以后还将陆续举办相关专题学术活动。


图片现场讨论集锦


与会人员合影