中国科技术语 ›› 2024, Vol. 26 ›› Issue (2): 29-36.doi: 10.12339/j.issn.1673-8578.2024.02.004

• 技术方法 • 上一篇    下一篇

基于深度学习文本摘要的科技名词释义生成方法

杜振雷1(), 陈若愚2(), 姜雨杉2()   

  1. 1 全国科学技术名词审定委员会,北京 100717
    2 北京信息科技大学计算机学院,北京 100101
  • 收稿日期:2023-03-27 修回日期:2023-06-29 出版日期:2024-03-29 发布日期:2024-03-29
  • 作者简介:

    杜振雷(1985—),男,硕士,全国科学技术名词审定委员会事务中心宣传推广处副处长,学习强国·每日科技名词编辑部主任,全国语言与术语标准化技术委员会计算机辅助术语工作分技术委员会委员。主要研究方向为术语管理、术语传播和自然语言处理。主持或参与国家级、省部级及其他科研项目共8项,发表学术论文10篇,参与制定新闻出版行业标准1项,参与编写专著4部。通信方式:

    陈若愚(1982—),男,博士,2013年毕业于北京理工大学,现为北京信息科技大学计算机学院讲师。主要研究方向包括自然语言处理、知识图谱构建与应用等。作为主要人员参加了国家自然科学基金、国家242信息安全计划课题等多项研究。在国内外期刊、会议上发表论文10余篇。通信方式:

    姜雨杉(1999—),女,北京信息科技大学信息管理学院网络空间安全专业2022级硕士研究生,研究方向为自然语言处理。通信方式:

  • 基金资助:
    国家语言文字委员会科研项目“面向中文学习者的科技名词术语释义扩展生成研究”(YB135-155)

Research on Term Interpretation Generation Methods Based on Deep Learning Text Summarization

DU Zhenlei1(), CHEN Ruoyu2(), JIANG Yushan2()   

  • Received:2023-03-27 Revised:2023-06-29 Online:2024-03-29 Published:2024-03-29

摘要:

科技名词是科学技术形成、积累、交流和传播的前提和基础。为科技名词生成百科性释义,对于普通民众和中文学习者掌握科技名词内涵、正确使用术语具有很强的现实意义。文章提出了一种基于深度学习的科技名词百科释义生成方法。通过网络采集百科文本和专家撰写的术语释义文章,构建了科技名词百科释义数据集。基于T5 PEGASUS预训练模型并对模型进行微调,构建了生成式文本摘要模型和建立了科技名词释义生成系统。实验结果显示,本项研究所提出的模型在生成质量、语义连贯性和通用性等方面具有较高的性能。

关键词: 深度学习, 文本摘要, 科技名词, 术语释义, 释义生成, 数据集

Abstract:

Scientific and technological terms are the foundation and prerequisite for the formation, accumulation, communication, and dissemination of scientific knowledge. Generating encyclopedic definitions for these terms is of great practical significance for the general public and Chinese learners to grasp the connotations of scientific terms and use them correctly. In this study, we propose a deep learning-based method for generating encyclopedic definitions of scientific and technological terms. We collected encyclopedic texts and expert-written term definitions from the internet to construct a dataset for scientific and technological term definitions. Based on the T5 PEGASUS pre-trained model, we fine-tuned the model to build a generative text summarization model and developed a system for generating definitions of scientific and technological terms. Experimental results demonstrate that the proposed model exhibits high performance in terms of generation quality, semantic coherence, and versatility.

Key words: deep learning, text summarization, scientific and technological terms, definition of terms, definition generation, dataset