中国科技术语 ›› 2022, Vol. 24 ›› Issue (1): 36-44.doi: 10.12339/j.issn.1673-8578.2022.01.004

• 计算术语学 专栏 • 上一篇    下一篇

英语网络非正规语言表达的自动识别与术语库构建

夏榕璟(), 张克亮()   

  1. 信息工程大学洛阳校区,河南洛阳 471003
  • 收稿日期:2021-09-27 修回日期:2021-11-30 出版日期:2022-01-05 发布日期:2021-12-27
  • 作者简介:夏榕璟(1998—),女,信息工程大学洛阳校区研究生。主要研究方向:自然语言处理、机器翻译、知识图谱等。通信方式: cczxxrj@163.com
    张克亮(1964—),男,博士,信息工程大学洛阳校区教授、博士生导师,主要研究领域为计算语言学、机器翻译、知识工程等。先后兼任中国人工智能学会理事及自然语言理解专委会委员,中国中文信息处理学会机器翻译专委会委员,国家自然科学基金、国家社会科学基金、教育部学位中心学位论文评审专家。长期从事计算语言学和语言信息处理教学科研工作,主持或参与完成国家科技支撑计划、国家自然科学基金、国家社会科学基金、装备科研等10余项课题的研究工作,其中包括主持国家自然科学基金重大项目课题1项,出版专著、编著、词典、教材4部(套),发表中英文论文80余篇。通信方式: kliang99@sina.com
  • 基金资助:
    国家自然科学基金重大项目课题“多语言言语数据的获取、标注和分析研究”(11590771);教育部首批新文科研究与改革实践项目“语言和技术相结合的国防语言人才培养创新与实践”(2021100089)

Automatic Recognition and Terminology Database Construction of English Network Informal Language Expressions

XIA Rongjing(), ZHANG Keliang()   

  • Received:2021-09-27 Revised:2021-11-30 Online:2022-01-05 Published:2021-12-27

摘要:

网络非正规语言表达(Network Informal Language Expression, NILE)具有的创新性强、超常规化、表达方式口语化等特点,为许多自然语言处理任务带来了挑战。在使用网络语言进行交流的过程中,部分网络非正规语言表达逐渐标准化和规范化,形成网络非正规语言表达术语。通过对46万余条Twitter数据的收集、处理和分析,英语网络非正规语言表达可以在音、形、义层面划分为13类,并对其特征进行分析和总结。结合统计方法和规则方法的优点,设计了统计和规则融合的英语网络非正规语言表达自动识别方法。最终构建规模为7000余条的网络非正规语言表达术语库。

关键词: 网络非正规语言表达, 自动识别, 术语库

Abstract:

Network Informal Language Expression (NILE) has the characteristics of novelty, unconventionality and colloquialism,which poses a challenge to many natural language processing tasks. In the process of using online language for communication, some NILEs are gradually standardized and normalized, forming a crucial part of the NILE terminology. By collecting, processing and analyzing more than 460 000 tweets, we divide English NILEs into 13 categories from the perspectives of sound, form and sense, and further analyzed their characteristics. Taking the advantage of statistic-based approach and rule-based approach, we design an automatic English NILE recognition system based on the integration of statistical techniques and linguistic rules, and thereupon build a terminology database of 7000 NILE items.

Key words: Network Informal Language Expression (NILE), automatic recognition, terminology database

中图分类号: