中国科技术语 ›› 2022, Vol. 24 ›› Issue (3): 3-8.doi: 10.12339/j.issn.1673-8578.2022.03.001

• •    下一篇

术语研究中的最小编辑距离

冯志伟1(), 周建1(), 于洋2()   

  1. 1.杭州师范大学,浙江杭州 311121
    2.大连海事大学,辽宁大连 116026
  • 收稿日期:2022-01-29 修回日期:2022-04-11 出版日期:2022-07-05 发布日期:2022-07-04
  • 作者简介:冯志伟(1939—),男,博士生导师,中国中文信息学会会士,中国人工智能学会理事,杭州师范大学外国语学院特聘教授,教育部语言文字应用研究所研究员。主要研究方向为计算语言学、计量语言学、理论语言学、语料库语言学、术语学等。出版中外文专著38部,发表中外文论文500多篇,主持编制国际标准1项和国家规范3项,参与编制国家标准14项,曾获中国计算机学会NLPCC杰出贡献奖、奥地利维斯特奖、香港圣弗兰西斯科技人文奖。通信方式: zwfengde2010@163.com
    周建(1979—),男,硕士,杭州师范大学外国语学院讲师。主要研究方向为专门用途英语教育(ESP)、语料库语言学和翻译技术等。通信方式: james@hznu.edu.cn
    于洋(1988—),男,博士,大连海事大学外国语学院讲师。主要研究方向为计量语言学、语料库语言学和词源学等。通信方式: yuyang89@dlmu.edu.cn

Minimum Editing Distance in Term Research

FENG Zhiwei1(), ZHOU Jian1(), YU Yang2()   

  • Received:2022-01-29 Revised:2022-04-11 Online:2022-07-05 Published:2022-07-04

摘要:

最小编辑距离是比较语言中不同符号串之间相似程度的一种方法,这种方法计算不同符号串之间转换时的删除、插入、替代等运算的操作数,通过动态规划算法进行算法描述。在术语研究中,可以使用最小编辑距离对术语特征进行定量化计算。在计算语言学中,可以使用最小编辑距离发现潜在的拼写错误,进行错拼更正。在语音识别中,可以使用最小编辑距离计算单词的错误率。在机器翻译中,可以使用最小编辑距离进行双语语料库的单词对齐。

关键词: 最小编辑距离, 动态规划算法, 术语对齐, 字符串相似程度

Abstract:

Minimum editing distance is a method for comparing the degree of similarity between different symbol strings in a language. This method calculates the number of operations such as deletion, insertion, substitution in transforming between different symbol strings, and can be described algorithmically by a dynamic programming algorithm. In terminology, the minimum editing distance can be used to quantify the term features. In computational linguistics, the minimum editing distance can be used to find potential spelling errors and perform misspelling corrections. In speech recognition, minimum editing distance can be used to calculate the error rate of words. In machine translation, the minimum editing distance can be used for alignment of words in bilingual corpus.

Key words: minimum edit distance, dynamic programming algorithm, term alignment, similarity between different symbol strings

中图分类号: