中国科技术语

• 术语和数据库 • 上一篇    下一篇

ITDBS——智能化术语数据库系统

王子平   

  1. 北京理工大学
  • 出版日期:1991-12-15 发布日期:1991-12-15

An Intelligent Terminology Data Bank System (ITDBS)

Wang Ziping   

  • Online:1991-12-15 Published:1991-12-15

摘要: 一、前言
方毅同志于1985年4月致全国自然科学名词审定委员会成立大会的贺信中曾指出“自然科学名词审定是我国科技工作中一项极为重要的基础工作。尽快实现科学技术名词术语的标准化、规范化、逐步建立具有我国特色的术语数据库是发展科学技术、提高全民族科学文化水平的迫切需要和广大科技工作者的共同愿望。”我们认为这段话十分正确、重要、精辟。1987年以来,随着自动化名词审定委员会审定工作的逐步深入,更加体会到开发一个适应我国国情,并具有中国特色的术语数据库的迫切性。本文所要介绍的ITDBS——智能化术语数据库系统正是在这一背景和思想基础上,结合自动化名词的审定而研究开发成功的。
二、国内外术语数据库发展概况
近年来在国内术语数据库的研究与开发,已引起不少单位的重视,但从总的情况看,基本上处于起步阶段。在国外不少发达国家和地区,早已建起了一定规模的术语数据库,如欧洲共同体,加拿大、前联邦德国、法国、瑞士、前苏联、丹麦等。这些数据库的运行,正在产生着巨大的经济效益和社会效益。其共同点是:大多是在容量较大的计算机上开发的(中、小型机、甚至是大型机),存贮容量大,运算速度快;多语种,具有先进的外围设备;得到了国家或地区的支持,投资大,人员多。尽管它们的硬件设备先进,但如果以是否引入人工智能技术为标志去划代(即未引入人工智能技术者为第一代术语数据库,已引入人工智能技术者为第二代术语数据库),那么上述国外各个术语数据库,据我们最近调查和了解的情况看,大都属于第一代。
第一代术语数据库存在着一些共同的缺点:即需要一套专门的查询命令,这对非专业人员很不方便;而且数据库规模愈大,查询效率愈低;只能查询事先存入的信息,不能查询非直接存贮信息。不利于充分发挥数据库的潜在功能。其原因主要是第一代术语库缺乏知识支持,缺乏推理功能。因此,把数据库技术与人工智能技术结合起来,已成为数据库技术当前的重要发展方向。
此外随着微电子技术的日益发展,微型机的存储容量及运算速度已有大幅度提高。今日的高档微型机已可与过去的中型机相媲美。因此在微型机上开发术语数据库是当前术语数据库技术的另一个重要发展方向。
三、ITDBS运行环境及总体结构
(一)运行环境
本系统是在IBM-PC/XT及其兼容机上开发的内存,640KB,硬盘20兆,操作系统采用CC DOS2.10,此外还采用了C-dBASEⅢ数据库管理系统。
(二)总体结构及其组成
ITDBS的总体结构如图1所示。从系统的总体结构图即可看出,本系统主要共有三大组成部分:

图1.ITDBS的总体结构
(1)智能前端(IFE)
IFE为一典型的专家系统,它是由知识库、推理机构及全局数据库构成。
知识库是专家系统的核心。库内存放以下一些知识:
<Ⅰ>术语数据知识:目前存放的是自动化名词委员会首批审定通过的自动化名词术语近2000条、根据自动化名词术语系统的学科分类,全部术语共划分为14个术语文件,驻于磁盘,根据需要,可有顺序地调入内存。这14个术语文件是1.通类;2.古典控制理论;3.现代控制理论;4.大系统;5.系统工程;6.过程控制与仪表;7.计算机应用;8.电气自动化;9.空间运动体控制10.仿真;11.智能控制;12.机器人;13.经济控制;14.生物控制论。
<Ⅱ>ASCII文件与术语第一个字符ASCII码值之间的关系。在建立推理数据库时,要用到这种知识。这里所说的ASCII文件是根据中文、英文术语第一个字符的ASCII码值,分别按一定的数值范围构成,共有46个ASCII文件,其中19个是按中文术语第一个字符的ASCII码值构成,27个是按英文术语第一个字符的ASCII码值构成。14个术语文件反映了全部词条的各种信息;46个ASCII文件只起着指针作用,这有利于提高检索查询速度。
<Ⅲ>隐含于术语词条(即术语号)中的领域信息。
<Ⅳ>自动化名词术语系统的有关知识,它包括总系统、子系统、子子系统间的上下隶属关系
<Ⅴ>ASCII文件。
本知识库根据所采用的Turbo Prolog语言的特点,将知识的基本单元写成谓词逻辑构成的事实和规则。
IFE的推理机构包括操作规则及其原理。它知道如何使用知识库,并推出合理的结论。其推理策略采用了正向推理和反向推理策略。此外在Turbo Prolog中,系统本身即具有搜索、匹配功能,即合一子程序和回溯子程序。前者可自动地为已知参数选配相应的事实;后者可自动找出某一询问的全部解答。
ITDBS系统的推理机构功能不仅仅是“合一”和“回溯”,而且在Turbo Prolog的支持下,还利用关键字分析技术,开发了一套用于“智能检索”的推理机制,这是ITDBS系统的重要特征之一。
IFE的全局数据库用来存放、记录与当前问题有关的各种数据。它是由推理机构针对知识库中的知识,根据需要有选择地或顺序地调入内存而构成。
(2)后端(BE)
后端由dBASEⅢ和术语库组成。ITDBS选择dBASEⅢ的主要理由是:dBASEⅢ是目前在微型机上最流行的DBMS之一,从构成理论或实践均比较成熟,语言简单灵活,对每一查询,机会均等,查询时间与存取位置和存取路径无关。其潜力也较大,每条记录可包含128字段,备注型字段可达4000字符(2000个汉字),每个库文件可达10亿条记录,同时可打开10个库文件。因此,目前后端的术语库完全是按照dBASEⅢ的数据结构及命令格式开发的。
(3)前后端间的界面
利用Turbo Prolog 2.0所开发的这个界面既可以利用IFE调用后端的DBF文件,又可利用IFE向DBF文件的数据进行插入、修改和删除,此界面的设置使ITDBS系统得以采用双文件工作制,即公共文件与工作文件。公共文件置于前端、工作文件置于后端。一般用户只接触公共文件即可。无需也不许随便访问工作文件。只有工作人员或个别专家用户由于工作需要,方可访问后端。
四、ITDBS主要功能及其特点
ITDBS除一般的存取、操作、管理功能外还具有以下一些特点:
1.反映在人、机信息交互功能方面:
由于具有IFE,故可用知识驱动代替指令驱动;可自动适应不同水平用户的要求(初级用户,中级用户及专家用户);有较强的检错能力和在线帮助能力。
2.反映在查询功能方面:
既可进行精确查询(exact retrieval),也可进行非精确查询(inexact retrieval);由于采用了双文件工作制,既有利于查询,又有利于维护;英、汉术语均可进行查询。
此外,ITDBS的软、硬件环境均易于推广使用。如果能把ITDBS与局域网(LAN)技术结合起来,其意义和作用将更加巨大。
五、查询举例
<例一>用户欲查询“积分饱卷”的有关信息,查询情况如下:
+=======智能查询=======+
?→求助.E→退出.Enter→查询.
+==============+
?选择术语输入方式<1.中文2.英文>:
*1
?输入术语:
*积分饱卷
—对以下问题作出回答或按回车键—
?输入的术语精确吗[y/n]
*Y
?输入术语文件名[.]
*
?输入学科领域<中文>:
*
?输入上一级领域<中文>:
*输出术语信息:
术语号:1.1.032
中文术语:积分饱卷
英文术语:integral windup
注释:由于积分控制器过饱和,使积分作用停止的现象。
*以上输出是你需要的信息吗?〔y/n〕y
您想知道有关这条术语的知识吗?〔y/n〕y
^本术语所属领域:通类
^上一级领域:通类
^本术语在数据库文件gn1.dba中。
<例二>用户欲查询术语“turing machine”的有关信息,查询情况如下:
+===========智能查询==========+
?→求助.E→退出.Enter→查询
+=========================+
?选择术语输入方式<1.中文2.英文>:
*2
?输入术语:
*turing machine
—对以下问题作出回答或按回车键—
?输入的术语精确吗[y/n]
*y
?输入术语文件名[.]
*
?输入学科领域<中文>:
*
?输入上一级领域<中文>:
*
*输出术语信息:
术语号:5.1.001
中文术语:图灵机
英文术语:turing machine
注释:
*以上输出是你需要的信息吗?[y/n]y
您想知道有关这条术语的知识吗?[y/n]y
^本术语所属领域:智能控制
^上一级领域:智能控制与机器人
^本术语在数据库文件inc.dba中
<例三>用户欲查询“工效学”(ergonomics)的有关信息。仅知道英文术语ergonomics的前六个字母,查询情况如下:
+===========智能查询==========+
?→求助.E→退出.Enter→查询
+=========================+
?选择术语输入方式<1.中文2.英文>:
*2
?输入术语:
*ergono
—对以下问题作出回答或按回车键—
?输入的术语精确吗[y/n]
*
?输入术语的词首(第一个汉字/英文单词英文字母)准确吗[y/n]
*y
?输入术语文件名[.]
*
?输入学科领域<中文>:
*
?输入上一级领域<中文>:
*
!按前六个英文字母查找
*输出术语信息:
术语号:5.1.107
中文术语:工效学
英文术语:ergonomics
注释:
*以上输出是你需要的信息吗?[y/n]y
您想知道有关这条术语的知识吗?[y/n]y
^本术语所属领域:智能控制
^上一级领域:智能控制与机器人
^本术语在数据库文件inc.dba中
<例四>用户欲查询“随机下推自动机”(stochastic pushdown automaton)的有关信息,仅知道pushdown这一个单词,查询情况如下:
+===========智能查询==========+
?→求助.E→退出.Enter→查询
+=========================+
?选择术语输入方式<1.中文2.英文>:
*2
?输入术语:
*pushdown
—对以下问题作出回答或按回车键—
?输入的术语精确吗[y/n]
*
?输入术语的词首(第一个汉字/英文单词英文字母)准确吗[y/n]
*
*?输入术语文件名[.]
*
?输入学科领域<中文>:
*
?输入术语文件名[]
*?输入上一级领域<中文>:
*
!按第一个单词和最后一个单词查找
*输出术语信息:
术语号:5.1.009
中文术语:下推自动机
英文术语:pushdown automaton
注释:
*以上输出是你需要的信息吗?[y/n]y
!按英文单词查找
*输出术语信息:
术语号:5.1.014
中文术语:随机下推自动机
英文术语:stochastic pushdown automaton
注释:
*以上输出是你需要的信息吗?[y/n]y
您想知道有关这条术语的知识吗?[y/n]y
^本术语所属领域:智能控制
^上一级领域:智能控制与机器人
^本术语在数据库文件inc.dba中.
六、结束语
ITDBS成功地把人工智能技术用于术语数据库的开发,并有效地采用IFE结构形式,它在学术上是有一定意义的。因为它既可以提高人、机界面的能力,又可以充分发挥术语库的潜在作用,符合术语数据库的发展方向。此外由于ITDBS的软硬件环境是IBM-PC机及dBASEⅢ系统,极便于推广应用于自然科学名词审定委员会所属的各个分支学科。而且利用ITDBS和局域网技术,即可解决全国自然科学名词术语各学科子库的联网问题,既方便又经济,有极大的现实意义和实用价值。
参考文献
[1]王子平,开发具有我国特色的自动化名词术语系统,自然科学术语研究,1987,(1)。
[2]葛志忠,自动化名词术语系统及智能化术语数据库的开发,北京理工大学研究生论文,1991。
[3]冯志伟,国外术语数据库的研究概况,自然科学术语研究,1988,(2)。
[4]粟武宾,第二届术语学与知识工程国际会议概况报告,1990。