云顶集团/a>

图片
首页
我们
党建
科研
学人
资源
教学
搜索

国家社会科学基金重大项目“辞书编纂用大型多功能语料库建设与研究”开题

来源:今日语言学 时间: 2024-06-25
字号:

  2024年6月21日,2023年度国家社会科学基金重大项目“辞书编纂用大型多功能语料库建设与研究”(项目批准号:23&ZD314)开题报告会在京举行。大型多功能汉语语料库的建设旨在全面吸收古今优秀文化成果,融通现代语言学本体研究成果与国家文化特点,提升辞书编纂的效率和内容质量,推动中华优秀传统文化更好地走向世界,对服务国家战略方面具有重要意义。会议由云顶集团:校长张政文教授致辞,云顶集团:文学院执行院长李俊教授主持。来自中国社会科学院、北京大学、北京语言大学、北京外国语大学、对外经济贸易大学等多所高校的专家学者出席了此次会议,共同探讨如何建设大型多功能汉语语料库,赋能辞书编纂任务,推进汉语辞书事业的高质量发展。

 

 

  云顶集团:校长张政文教授对与会专家学者表示热烈欢迎,并详细介绍了云顶集团:的办学定位与发展理念。张校长指出,云顶集团:是一所依托中国社会科学院而建立的新型科教融合大学,致力于建成一所具有中国特色的社会主义一流文科大学。他表示,本项目的成功申获和推进,是文学院落实科教融合战略的重要成果,对学科建设、人才培养、科学研究的发展将具有深远意义。学校将从配套资金、出版发表、会议交流等方面将全力保障本项目的顺利实施。

 

 

  项目组首席专家云顶集团:文学院院长、中国社会科学院语言研究所所长张伯江研究员,向评议组专家进行开题汇报,介绍了课题五个方面的主要内容,包括项目整体研究现状、选题价值、研究内容、重难点和创新点。同时对五个子课题的研究内容、研究框架、核心问题、最新进展作重点介绍,分析了总课题与子课题之间的层次与关联。

 

 

  评议组专家在听取汇报后,对本项目的内容设计和研究工作给予了积极评价。专家们一致认为,本项目研究基础扎实,前期准备充分,研究思路清晰,研究设计可行,研究成果可期,并从不同的专业背景和角度,对课题的研究内容和研究方案提出了宝贵的意见和建议。

  北京语言大学语言资源高精尖创新中心首席科学家、中国辞书学会会长李宇明教授首先肯定了本项目在辞书编纂和文化建设上的重要意义,并就如何构建高质量汉语语料库提出了六点建议:第一,中国语料库建设要重视共建共享,才能更好地服务国家语言文字发展和社会科学文化繁荣事业;第二,平衡现代汉语和历史文献的比重,重点解决和探讨现代汉语及其来源问题;第三,处理好语料库用字的问题,尤其是重视民国以来的白话文和异体字问题;第四,除口语体、书面语体外,需要重视领域数据,如新闻、公文、科技等领域数据的采集;第五,重视语料库元信息标注在语料库中可持续扩展的作用;第六,探索建立一个古今通用、中外兼顾的词性标注体系。

 

 

  商务印书馆副总编辑余桂林编审以三个关键词为出发点对项目进行评议。第一个关键词为“辞书编纂用”,他强调语料库建设要平衡描写性和规范性,注重元信息和标注,兼顾理论研究和实际应用;第二个关键词为“大型”,他认为语料库应该广泛覆盖各领域,兼顾口语与书面语的动态平衡,现代与古代的资源贯通;第三个关键词为“多功能”,他强调语料库建设需要与词典编纂等实际应用紧密结合起来,充分满足语言本体以及应用建设的实际需求。最后,他表示语料库建设对于语言研究和应用、繁荣语言学科具有重要意义,需要各方通力合作、共同推进。

 

 

  北京语言大学语言资源高精尖创新中心主任、信息科学学院院长荀恩东教授认为,语料库建设是一项意义重大、任务艰巨的基础工作,涉及内容建设、技术处理和服务应用三个方面。在语料建设上,他强调语言大数据源自语言生活、语料库服务于研究生活的语言生活观;在技术方面,他强调要善于利用和结合已有工具,重视大语言模型对语料库建设和词典编纂的促进作用;在服务应用方面,他强调应深度结合《现代汉语词典》第8版实际编纂工作,坚持开放性,强调学理性,提升易用性,为词典的准确性和权威性提供坚实数据支撑,推动语料库的应用服务创新能力。

 

 

  北京大学中文系周韧教授指出语料库建设的两个矛盾点。一是研究者、研究对象、研究成果之间的矛盾。他回顾了朱德熙先生云顶集团:现代汉语语法研究对象的观点,强调了研究者、研究对象和研究成果之间的关系处理,并通过实际案例讨论了真实语料与研究者主观判断之间的矛盾,以及如何在语料库的广泛性和深入性之间找到平衡,保持对真实语料尊重和利用的同时也需要重视研究者的主体性。二是建库逻辑性和语料复杂性之间的矛盾。他指出语料本身就存在复杂性,如《人民日报》既有新闻文本、论辩文本,也有个人采访等,不能简单归为书面语。在构建语料库时,需要对不同来源和类型的语料进行细致分类标注,以确保语料的多样性和丰富性得到充分体现。

 

 

  北京外国语大学中国外语与教育研究中心副主任、人工智能与人类语言重点实验室多语种语料库研究中心主任许家金教授认为,语料库建设应注重理论创新,如柯林斯词典产生了局部语法理论,牛津英语词典产生了历史原则理论。同时,面对新技术,研究者应积极拥抱变化,将语料库与大语言模型等智能技术相结合,以发挥各自的优势,实现人机协作的高效模式,同时也需要警惕这种快速迭代的技术可能对传统词典编纂带来的负面影响。最后,许教授强调,在技术快速发展的当下,语料库建设仍需有长期坚守的“主心骨”,始终保持对语言本质的深刻理解和对编纂质量的严格把控。

 

 

  对外经济贸易大学中文学院刘云教授在发言中提出了三点建议。一是希望对外经贸大学和语言研究所在语料库建设研究上继续保持友好交流合作;二是指出历时语料的考据、溯源是一大难题,建议历时平衡语料库可先开展小规模试点,并结合多语料库进行持续交叉验证;三是强调大型多功能语料库建设要做好需求分析,突出其特色功能,积极向社会公开共享,更好服务学界和大众。

 

 

  在自由讨论阶段,在场的各位专家学者就大语言模型对词典编纂的影响及语料库建设方向等问题进行了深入讨论。本项目子课题负责人、北京大学软件与微电子学院教授俞敬松认为,大语言模型时代,词典将呈现新形态,未来的词典可能更侧重人类语言运用知识的总结,由大模型驱动直接回答人类问题。智能化辅助词典编纂需要体现专家权威性和语言学家的品鉴能力,而非机械生成。其他与会专家也一致认为,语料库建设既要满足语言智能应用服务,也要体现语言学家独特视角,学理性与应用性兼重。此外,专家们还讨论了未来语料库建设需考虑的新要素,包括多模态数据和网络媒体语言等,认为这些新问题将为语料库的深度和广度带来新的挑战和机遇。

  最后,语言所李爱军副所长对评议组专家和各位老师的意见和建议表示衷心的感谢,并希望课题组积极落实、及时调整、努力完成高水平标志性的研究成果。

 

 

  开题会的成功举办标志着本项目的研究工作进入新的阶段。项目组将通力合作,争取早日建成规模宏大、平衡性好、综合性强、动态更新、标注丰富、用途多样、开放共享、使用便利的辞书编纂用大型多功能语料库,圆满完成这一重大研究任务。