中国科技术语 ›› 2023, Vol. 25 ›› Issue (4): 3-11.doi: 10.12339/j.issn.1673-8578.2023.04.001

• •    下一篇

基于概念结构与分布式表征的术语语义知识库构建

王裴岩(), 李林娜(), 沈思嘉()   

  1. 沈阳航空航天大学人机智能研究中心,辽宁沈阳 110136
  • 收稿日期:2023-02-06 修回日期:2023-03-21 出版日期:2023-09-26 发布日期:2023-09-26
  • 作者简介:

    王裴岩(1983—),男,2020年毕业于南京航天航空大学计算机科学与技术学院,获工学博士学位,现为沈阳航空航天大学人机智能研究中心高级工程师,主要研究方向为自然语言处理、机器学习、知识工程。先后主持辽宁省自然科学基金重点项目与教育部人文社会科学青年基金项目,参加国家科技支撑计划与国防基础科研等项目,获得国防科技进步二等奖与中国航空学会科学技术奖一等奖。通信方式:

    李林娜(1995—),女,沈阳航空航天大学计算机学院硕士研究生。主要研究方向为自然语言处理。通信方式:

    沈思嘉(2000—),女,沈阳航空航天大学计算机学院硕士研究生。主要研究方向为自然语言处理。通信方式:

  • 基金资助:
    全国科学技术名词审定委员会科研项目“基于深度学习的术语概念语义图谱构建”(YB2022015)

Construction of Terminology Semantic Knowledge Base Based on Conceptual Structure and Distributed Representation

WANG Peiyan(), LI Linna(), SHEN Sijia()   

  • Received:2023-02-06 Revised:2023-03-21 Online:2023-09-26 Published:2023-09-26

摘要:

词汇语义知识库的构建是自然语言处理中的一项基本任务,在自然语言处理的各子任务中发挥着重要作用。文章面向领域内复合型术语,提出术语概念KDML表示的自动生成方法,该方法基于概念的层级结构,采用分布式表征方法表征概念与术语定义文本,根据二者间语义距离大小进行概念消歧,通过K近邻算法学习概念间的语义角色,按照KDML语法规则生成术语概念的完整表示。实验取得首义原精确率为96%,总义原、总语义角色与总三元组的F1值分别为91.92%、78.9%、73.41%的结果。

关键词: 分布式表征, 语义消歧, HowNet, 术语语义知识库构建

Abstract:

The construction of lexical semantic knowledge base is a basic task in natural language processing and plays an important role in various subtasks of natural language processing. This paper proposes an automatic generation method of term concept KDML representation for compound terms. The method is based on the hierarchical structure of concepts, uses distributed representation method to represent concepts and term definition text, and performs concept disambiguation according to the semantic distance between concepts and terms definition text. The method can learn the semantic roles between concepts through K-nearest neighbor algorithm, and generates term concept representation according to KDML syntax rules. Our experimental results showed that the accuracy rate of the first sememe was 96%, and the F1 values of the total sememe, semantic role and total triple were 91.92%, 78.9% and 73.41% respectively.

Key words: distributed representation, semantic disambiguation, HowNet, construction of terminology semantic knowledge base