中国科技术语 ›› 2020, Vol. 22 ›› Issue (3): 24-32.doi: 10.3969/j.issn.1673-8578.2020.03.004

• 术语学研究 • 上一篇    下一篇

计算语言学中的重要术语——词向量

陆晓蕾, 王凡柯   

  1. 厦门大学,福建厦门 361005
  • 收稿日期:2020-01-02 修回日期:2020-05-17 出版日期:2020-06-25 发布日期:2020-07-20
  • 作者简介:陆晓蕾(1988—),女,博士,厦门大学助理教授,主要研究方向为计算语言学。通信方式: luxiaolei@xmu.edu.cn。
  • 基金资助:
    教育部人文社科基金青年项目“‘一带一路’战略下涉外法律机器翻译云平台的构建及应用研究”(18YJCZH117);福建省中青年教师教育科研项目“基于语料库的法律英语教学云平台的构建”(JZ180061);中央高校基本科研项目“基于语义模型的机器翻译研究”(20720191053)

Word Embedding: Concepts and Applications

LU Xiaolei, WANG Fanke   

  • Received:2020-01-02 Revised:2020-05-17 Online:2020-06-25 Published:2020-07-20

摘要:

过去几年,自然语言处理(NLP)技术飞速发展,文本表征成了计算语言学的核心。其中,分布式词向量表征在语义表达方面展现出巨大的潜力与应用效果。文章从语言学理论基础出发,介绍了计算语言学的重要术语——词向量。探讨了词向量的两种表示方式:离散式与分布式;介绍了词向量在语义变迁等历时语言学领域的应用。在此基础上,指出词向量语义计算法存在的局限性,并总结了两种词义消歧方法:无监督与基于知识库。最后,文章提出大规模知识库与词向量的结合可能是未来文本表征研究的重要方向之一。

关键词: 自然语言处理, 文本表征, 词向量

Abstract:

This article focuses on the study of word embedding, a feature-learning technique in natural language processing that maps words or phrases to low-dimensional vectors. Beginning with the linguistic theories concerning contextual similarities — “distributional hypothesis” and “context of situation”, this article introduces two ways of numerical representation of text: one-hot and distributed representation. In addition, this article presents statistical-based language models (such as co-occurrence matrix and singular value decomposition) as well as neural network language models (NNLM, such as continuous bag-of-words and skip-gram). This article also analyzes how word embedding can be applied to the study of word-sense disambiguation and diachronic linguistics.

Key words: natural language processing, text representation, word embedding

中图分类号: