中国科技术语 ›› 2022, Vol. 24 ›› Issue (1): 3-13.doi: 10.12339/j.issn.1673-8578.2022.01.001

• 计算术语学 专栏 •    下一篇

科技术语自动提取技术——现状与思考

常宝宝()   

  1. 北京大学计算语言学教育部重点实验室,北京 100871
  • 收稿日期:2021-08-04 修回日期:2021-10-19 出版日期:2022-01-05 发布日期:2021-12-27
  • 作者简介:常宝宝(1971—),博士,北京大学信息科学技术学院副教授,主要研究领域为自然语言处理。先后主持多个国家自然科学基金和国家社会科学基金等项目,在包括ACL、EMNLP、COLING、IJCAI、AAAI等国际顶级会议在内的国内外学术会议及期刊上发表论文近百篇。作为主要成员,先后获得教育部科技进步一等奖、中国电子学会科技进步一等奖、国家科技进步二等奖等。通信方式: chbb@pku.edu.cn
  • 基金资助:
    全国科学技术名词审定委员会科研项目“基于深度学习的科技术语提取技术研究”(2017001);国家自然科学基金项目“基于深度学习的数据-文本生成技术研究”(61876004)

Techniques of Automatic Term Extraction:Current Sate and Reflections

CHANG Baobao()   

  • Received:2021-08-04 Revised:2021-10-19 Online:2022-01-05 Published:2021-12-27

摘要:

文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向。

关键词: 自动术语提取, 自动术语标注, 单元度, 术语度, 机器学习

Abstract:

This paper overviews the definition, major approaches and the evaluation metrics of the ATE task. For the traditional approaches, we mainly elaborate the measurement of the Unithood and Termhood, using pointwise mutual information, t-value, ti-idf weighting and C/NC-value as examples. For Automatic Term Labelling, we mainly present the sequence labelling modelling. We think the performance of Automatic Term Extraction/Labelling is still not satisfactory from a point of view of real application, and try to offer a few directions of further improvements.

Key words: automatic term extraction, automatic term labelling, unithood, termhood, machine learning

中图分类号: