中国科技术语 ›› 2022, Vol. 24 ›› Issue (1): 26-35.doi: 10.12339/j.issn.1673-8578.2022.01.003

• 计算术语学 专栏 • 上一篇    下一篇

面向军事领域的土耳其语术语自动抽取研究

张贵林1(), 易绵竹1(), 李宏欣1(), 闫丹辉1, 孙玥莹2   

  1. 1.信息工程大学洛阳校区,河南洛阳 471003
    2.中国科学技术信息研究所,北京 100190
  • 收稿日期:2021-07-05 修回日期:2021-09-25 出版日期:2022-01-05 发布日期:2021-12-27
  • 作者简介:张贵林(1982—),男,博士研究生,战略支援部队信息工程大学洛阳校区学员,研究方向为语言信息处理,主要从事形态学、术语学、语料资源构建和机器翻译等方面的研究。通信方式: guilin_1982@163.com
    易绵竹(1964—),男,战略支援部队信息工程大学洛阳校区教授、博士生导师、语言信息处理方向研究生教学指导组组长,兼任中国中文信息学会理事、国家社会科学基金项目和教育部学位与研究生教育发展中心学位论文通信评审专家等职,曾在俄罗斯伊尔库茨克国立大学和普希金俄语学院访学,获俄联邦语文科学博士学位,享受博士后待遇,主要从事计算语言学、本体语义学及术语学研究,主持完成国家级和部委级重点科研课题10余项,在国内外学术期刊发表论文近百篇,出版著作、译作和辞书8部,获省部级以上学术奖励和荣誉称号10余项。通信方式: 13373781261@163.com
    李宏欣(1983—),男,博士,战略支援部队信息工程大学洛阳校区副教授,研究方向为量子信息与基础数学,在国内外学术期刊发表论文数十篇。通信方式: lihongxin830@163.com
  • 基金资助:
    国防科技创新特区项目“面向周边国家多语言信息的领域知识获取与分析”(18H86301ZT00500501)

Research on Auto-Extraction of Turkish Terminology in Military Field

ZHANG Guilin1(), YI Mianzhu1(), LI Hongxin1(), YAN Danhui1, SUN Yueying2   

  • Received:2021-07-05 Revised:2021-09-25 Online:2022-01-05 Published:2021-12-27

摘要:

文章以土耳其语军事领域术语语言特征研究为基础,提出一种规则与统计相结合的术语抽取方法,先后通过关键词、停止词、形态分析序列模式、点互信息、左右信息熵和临接词缀等特征对单语文本中的候选项进行筛选,在W-data和N-data大小两组单语文本中进行实验,结果表明该方法能够有效地从实验数据中抽取土耳其语军事术语。

关键词: 土耳其语军事术语, 过滤词典, 自动抽取方法

Abstract:

Based on the analysis on the linguistic features of Turkish military terminologies, we proposed a terminology extraction method using combination of rules and statistics algorithm, and experimentally verified this method on monolingual W-data and N-data. The candidate items in the monolingual text are filtered through keywords, stop words, morphological analysis sequence pattern, pointwise mutual information, left and right information entropy and adjacency suffixes. Our results show that the proposed method can effectively extract Turkish military terminologies from the experimental data.

Key words: Turkish terminology extraction, filtering dictionary, automatic extraction methodologies

中图分类号: