中国科技术语

• 论文 • 上一篇    

术语数据库及其标准化工作的现状与分析

金万平   

  1. 全国术语标准化技术委员会
  • 出版日期:1991-12-15 发布日期:1991-12-15

The Present Situation and Analysis of the Terminology Data Bank and Related Work of Standardization

Jin Wanping   

  • Online:1991-12-15 Published:1991-12-15

摘要: 一、引言
术语是知识传播、技术传递、科技文化交流、贸易往来的工具,存在于社会生活和经济建设的各个领域。术语标准化,简而言之就是运用标准化的手段,通过对概念的严格定义,明确其内涵与外延,反映出其本质特征,进而为概念选择或寻求最适当的术语,力求达到术语的精确性和单义性,即一词一义(避免多义词)、一义一词(避免同义词),从而避免信息交流过程的歧义与误解。术语标准化通常是各专业领域实现标准化的前提和基础。术语数据库(又称术语库)是利用计算机和数据库技术对术语信息实现现代化管理的工具,是计算机辅助术语工作的最重要手段之一。利用术语库可以全面、迅速、准确地从大量术语数据中提取所需的信息;可以发现库中所存术语的多义性、歧义性,排除数据的冗余性、不一致性,进而维护数据的正确性;可以根据用户的不同要求提供服务。面向概念的术语库,含有对概念的严格定义,是标准化工作的支持工具;多语种术语库是翻译工作、语言研究与教学、科技文化交流、经济贸易往来所需要的;而向知识型的术语库(有时又称概念库)又是专家系统、知识库系统、机器翻译系统、以至于人工智能的实现所必不可缺的。因此,术语库的研究与开发,对科技、教育、出版、贸易、语言研究、标准化管理,以及国际间政治、经济、科技文化等方面的交流都会产生积极的影响。
二、术语库研究与开发工作的若干特点
1.基础性。术语库的研究与开发是术语标准化工作的重要组成部分,是术语信息管理和质量控制的工具,术语标准化工作的基础性特征决定了术语库研究与开发工作的基础性。
2.综合性。术语学是涉及到语言学、逻辑学、本体论、信息科学、科学分类法和各种具体学科及专业领域的一门综合性学科。术语库的研究与开发更涉及到计算机科学和技术、情报学、管理科学以及电信技术、数据存储技术、数据库技术等。
3.紧迫性。现代社会的信息量与日俱增,新概念、新术语大量涌现,以手工方式对大量的术语进行分类编目处理、分析研究以及检索已经越来越困难。根据ISO/TC37文件,国际标准化组织已发布国际术语标准大约300个,正在制订过程的国际术语标准草案(DIS)国际术语标准建议草案(DP)合计大约200个。我国现已发布国家术语标准600余个,所含术语词条10多万条,并且在其他非术语标准中也包含了大量的术语词条。这样大量的术语,若没有一个国家级标准化术语库进行管理,极易出现各种问题,给标准化管理工作带来困难。
4.复杂性。一般来说,术语库中的数据有以下特点:(1)数据量大。通常每条术语及其定义需占用计算机存储容量的上千字节;(2)数据类目多。比较完善一些的术语库的数据类目通常有数十项甚至上百项;(3)数据类型复杂。有些定义中含有图形(片)、公式、复杂的符号等计算机较难处理的数据类型;(4)数据关系多样。例如概念间的属种关系,整体与部分关系;术语间的同义、反义、近义关系,行话与方言的限定关系等,既有一一对应关系,又有一对多关系,还有多对多关系。设计术语库的数据结构,记录或字段间的拼链是非常复杂的工作。
5.艰巨性。术语库的研究与开发难度大,且综合性强,涉及多种学科以及高新技术,其中一些技术至今在世界上仍处于开发阶段。例如,大数量汉字处理问题,简繁汉字及日本、南朝鲜所用汉字的兼容处理问题;图形(片)、符号、公式处理问题;数据库标准化与术语库专用软件的开发问题;批量数据输入输出技术(如光电识别、语音识别);异机种联网等。大型多功能术语库的开发必需具有足够的人力、物力、财力。据有关资料,国外几家大中型(含10万或10万条以上术语)术语库,仅术语库应用软件的开发一项就都耗资十万美元以上。财力、物力的不足,使得大型术语库的开发在经济不发达国家受到限制。
6.社会效益显著。无论各行各业都有术语,无论是在行业内部,还是在各行业之间,以至于国际间的政治、经济和技术方面的交流,想要尽力避免歧义和误解,都必须进行术语标准化工作,而术语库的开发有利于促进术语标准化工作的顺利进行。毋庸赘言,术语库的建立具有明显和现实的社会效益。
7.经济效益长远。信息交流是技术进步的基础,术语标准化、术语库的建设又是信息交流所不可缺少的。同时,术语库的研究又涉及到信息处理技术、计算机技术等一些经济上极具开发价值的领域,对电子辞典、知识库系统、专家系统、机器翻译系统等具有商品价值的实用计算机系统的研制具有推动和促进作用,因此,它具有潜含和长远的经济效益。
三、国外术语库概况及问题分析
术语学是本世纪三十年代刚刚形成的一个新兴学科。术语库的研究与开发则在六十年代刚刚开始。
六十年代末,欧洲共同体翻译公司希望利用计算机为翻译人员迅速地提供多语种术语。欧共体的重要文件需使用英、法、德、荷兰、丹麦、葡萄牙、希腊等多种语言,建立多语种术语库可以为翻译人员迅速查询新术语提供方便,并在一定程度上,促进欧共体以上几种官方语言文件中的术语协调和统一。欧共体术语库——EURODICAUTOM于七十年代建成,该库存有25万条术语,17万5千条术语缩略词,每年更新术语1万条左右,并包含了以上除希腊语(因为是非拉丁字母的语言)外的所有语种。该库由欧共体提供财政支持。
六七十年代建成的一些比较有影响的术语库有:
法国标准化协会(AFNOR)的术语库——NORMATERM。该库主要用于标准化管理,最初是为编辑《国际标准化组织叙词表》提供资料。该库只收录法国国内和国际标准中的术语,存有2万多条术语,使用法语,提供英语对应词,每年新增术语约1000条。经费来自法国政府提供的财政支持和工业的赞助。
加拿大政府的术语库——TERMIUM。该库主要用来满足对加拿大两种官方语言英语和法语术语进行核实和标准化。现存有术语大约300万条,包含90多万个记录,其中英、法两种语言的术语数据记录80万个,专名数据记录9万个,惯用法数据记录1万个,以及包含英、法、德、西班牙四语种对应词的数据记录3万个。加拿大政府提供全部财政开支。
德国语言管理局的术语库——LEXIS。该库主要用于翻译目的,现存有上百万条术语,使用英、德、法、俄、波兰、荷兰、意大利七种语言,年更新/新增术语3万多条,经费由德国政府提供。
德国西门子公司的术语库——TEAM。该库是出于公司生产和贸易的需要和用户的要求而建立的。现存有术语上百万条,使用德语、英语、法语、西班牙语、俄语、荷兰语、阿拉伯语、葡萄牙语。年更新新增术语1万条,对外实行有偿服务,现已自付盈亏。
瑞典技术术语中心的术语库——TERMDOK。该库主要用于标准化管理,只收录官方规定的标准化术语,对用户提供免费服务,现收有近十万条术语。
据有关资料统计,截止到1977年,世界上共有术语库16个。
术语库的研究与开发不断受到重视,1979年4月国际术语情报中心(Infoterm)为此召开了第一届国际专题学术会议,并出版了一本“术语数据库(Infoterm Series 5:Terminological Data Banks,Proceedings of the First International Conference)”论文专集。
八十年代,术语库得以迅速发展,ISO/TC371986年底统计,世界上有各类术语库46个,1989年再次统计时已达到74个。世界上术语库统计情况见小表:

注1:国际组织的术语库有3个设在美国;2个设在法国;2个设在瑞士;1个设在意大利。
注2:多国术语库中一个为欧洲——阿拉伯术语库,总部设在德国法兰克福;另一个为阿拉伯联盟教育、文化和科学组织的术语库,设在突尼斯。
注3:地区性组织的术语库为:欧共体术语库,设在卢森堡;经济合作与发展组织(OECD)术语库,设在法国巴黎。
注4:以上所列术语库中,有少部分是正在开发中,例如中国机械科技情报所的机电工程术语库。
八十年代建成的比较有影响的术语库有:
前苏联技术情报、分类和编码研究院的术语库——ASITO。该库主要用于标准化管理,提高国民经济术语信息服务的效益,已收录标准化术语12万余条,年处理能力为1万条左右,含俄、英、法、德术语索引。该库使用两台大型计算机,有45个终端,工业部门和480余个科研、教育、出版、科技情报、图书馆等部门使用该库。
丹麦术语库——DANTERM。该库建在哥本哈根经济学院,用于研究、教学和对外咨询,含有丹麦、英、法、德、西班牙等各种术语,已录入了从8000多篇论文中摘录的术语。
德国夫浪和费研究院的术语库——GL0T。该库主要用于科学研究,使用德语,含有英语、法语术语对应词,并根据中-德科技合作协定,由我国学者为该库配加了国际标准ISO 2382《数据处理词汇》的中文(汉字)术语。
随着计算机技术的发展,最近又有不少术语库在微机上建成。1989年11月下旬,国际术语情报中心又召开了“术语工作与高级微机的应用”专题国际学术会议,国际术语网通讯(TermNet News)出版了一期专刊,介绍了若干在微机上建成的术语库系统。据国际术语情报中心主任加林斯基先生介绍,现在世界上有各类术语库达200余个。
根据对现有的统计数据的分析,现有的术语库大致可分为:
政府或官方机构建立的,多用于管理目的,例如标准化管理、语言管理等;
科研与情报部门建立的,多用于科学研究、科技交流、翻译等;
大学或教育、文化机构建立的,多用于语言、翻译等方面的研究与教学,对外咨询等;
工业部门或企业公司建立的,多用科技交流、经济贸易和商业目的等。
并且越是经济发达,技术先进,科技、教育、文化、贸易等发展的国家与地区,术语库的研究与开发就越受到重视。根据表1的统计,欧洲术语库占世界术语库总数的近70%,但是其中东欧、前苏联术语库仅占欧洲术语库总数的不到10%;亚洲术语库占世界术语库总数为不到10%,其中有半数又是建在日本。这可以从两方面来解释:一方面发达国家具有足够的经济技术实力来开发高质量、多功能的术语库;另一方面,这些国家对信息传递的数量、速度和质量有更高的要求,实践过程中,认识到了术语库研究与开发的重要性和迫切性。
ISO/TC37最近又向ISO中央秘书处建议,建立国际标准化术语数据库。
国际上术语库研究与开发工作进展很快,但是同时也存在着一些问题。例如:
1.兼容性差,库间信息资源共享困难。由于国际标准化组织在早些时候没有制订关于术语库开发方面的国际标准,因而,各国际组织、各国所建术语库在硬件、软件、数据项、数据格式等方面都有不小的差异,兼容性较差。这个问题已经引起了ISO/TC37的重视,正在着手制订有关标准,现已完成ISO 6156《术语/辞书编纂记录用磁带交换格式》、WD 11(工作草案)《计算机辅助术语工作—技术报告》、WD 15《计算机辅助术语工作和术语编目的数据元目录》;并提出新工作项目:NWI 16《面向翻译工作的术语编目》、NWI 18《术语工作文献管理》等。但是,在术语库标准化的国际活动中也还存在着一些分歧,例如,前苏联对ISO 6156的修订就提出了非常强硬的意见(ISO/TC37/SC3 N45,en)。
2.质量层次不一,规模大小不一。现已建成的术语库有的含定义,有的不含定义;有的术语和定义选自权威性的标准、辞书,有的仅选自一般性的词典;大的库专业领域覆盖面广,词条数量大,语种包含多,用户遍及各行各业,小型库专业狭窄,词条数少,属于建库单位自建自用。各库之间的科学性、实用性、易用性、可靠性、可维护性、安全性等技术指标都无法比较与评价。
3.重复开发,浪费现象严重。有的库最初设计未考虑到未来的发展,不得不经常变换计算机机型,重新开发软件。有些库换代频繁,加拿大的TERMIUM库建于1974年,现已开始运行第四代;苏联ASITO库第一代1981年开始使用,1985年就改用第二代;欧共体的EURODICAUTOM库一开始运行在IBM 370/158计算机上,以后又改用Siemens 7760计算机;瑞典技术术语中心的术语库TERMTOK一开始使用微机,随着数据量的增加,不得不改用DEC-10数字计算机,IR系统3RIP对话式数据库。
4.中文(汉字)术语库的开发尚处于初级阶段。目前世界上只有个别术语库含有少量的中文(汉字)术语,尤其是简繁汉字、日本和南朝鲜汉字兼容处理问题仍未真正解决。
5.多语种术语库有待进一步完善。多语种术语库,尤其是含汉字术语库,无论在计算机技术方面,还是在建立各语种对应的术语概念分类体系方面都还有待进一步研究和完善。
6.术语库的综合利用不够,经济效益不显著。利用术语库制作出版物、电子辞典,以及支持开发具有商品价值的机器翻译系统、专家系统、知识库系统等有待进一步研究。
7.发展不平衡,经济不发达国家的术语库开发进展缓慢。在术语库研究与开发方面需要更多的交流与合作。
四、国内术语库开发简况
我国术语库研究与开发工作于1989年年初开始。
中国标准化与信息分类编码研究所于1989年年初决定建立标准化术语库,拟收录国家术语标准、其他国家标准中的术语词条,IS0、IEC等国际组织的术语标准及标准中的术语词条,以及其他一些国家(如美国、英国、加拿大、德国、日本、前苏联等)的标准化术语。现该库仍处于调研和试开发阶段。
机电部机械科技情报所1989年开始建立机电工程术语库,规划收录五十万条术语,第一期工程拟收录专业术语25万条,分20几个门类,100多个专业。该库小型试验库在微机上完成,使用中国科技情报所与联合国教科文组织合作开发的Micro CDS/ISIS通用信息管理系统软件,该软件具有较强的数据库定义功能,能较方便地按用户需要定义数据库,每个数据库记录最多可有200个字段,其下还可以定义子字段,字段均为不定长,可重复;用户可根据需要设计录入工作单,对数据库记录进行追加、修改、编辑等操作;该软件具有多种检索(顺排全文本,倒排各种逻辑操作)功能,多种数据输出格式,可以方便地对数据库进行维护;该软件留有用户编程接口,用户可开发设计自己的应用程序,并与其衔接;该软件还支持光盘存储和IBM-PC局部网络,是一种比较适合于术语库开发用的软件。该术语库多语种处理采用信通公司和清华大学联合开发的QSML多语种处理系统软件,效果也不错。总之该库模拟库的开发是比较成功的。该库开发中目前也存在一些问题:
1.根据其计划,建设该库过程中,大量的人力、物力、财力要耗费在对入库术语和定义的组织审定及外文对应词的选配上。
2.这样大型的,多语种的术语库,还没有解决数据批量输入的问题,靠人工键盘录入无论是在术语库生成(需要大量数据的录入)阶段还是日常的数据维护与更新,都是比较困难的。
3.许多机电工程方面的概念,其定义需要用图象(片)加以说明,如何开发图象(片)数据库,并解决与文字库的联接问题也是该库急需解决的问题之一。
4.现有的多语种处理软件还不十分理想,不能同时处理简繁汉字、日文、南朝鲜文中汉字,而且俄文处理是采用双字节,字母间隔大,比较难看,也需进一步完善。
目前,机械情报所正在通过国际术语情报中心邀请国外有关专家对该库进行评估。
此外国家语委语言应用研究所利用微机建立了一个含有二万条应用语言学术语的术语库。该库设有六个数据项,含术语的英文对应词;中国科技情报所周智佑研究员等利用微机建立了一个情报与文献标准术语库,收录了28项有关文献与情报国家标准中的术语约200条,该库设有10个数据项,配有英文对应词。
以上两个库均使用dBASEⅢ软件,在IBM-PC微机上开发而成,属小、微型自建自用术语库。dBASEⅢ数据库软件是国内比较流行,并且汉化较好的一种软件,但也有一定局限,例如,可处理数据的容量小,处理速度慢;采用定长记录,空间浪费较大等,不十分适合大型多功能术语库的开发。
目前,还有全国自然科学名词审定委员会、中国大百科全书出版社、科学出版社、化工部、地矿部等单位均表示了建术语库的意向。
总的来看,我国术语库的研究与开发工作起点低、起步晚、进展慢,无论是理论研究还是实践经验,以及经济的实力,技术的保障等方面都与国际上发达国家有很大的差距。同时各有关建库单位对国际上的经验研究不够,缺乏足够的国际资料,而现有的资料又利用率不高。各单位分散开发,缺少必要的交流与合作。针对上述问题,全国术语标准化技术委员会采取了以下措施:
1.1990年3月成立了第三分委员会——计算机辅助术语工作分委员会。该分委会由术语学、辞书编纂学、电子计算机、信息技术、机器翻译等方面的专家组成,代表十多个单位,以加强该领域内的协调与合作。
2.利用走出去,请进来的办法吸收国外的先进经验。1989年以来组织各有关单位的专家和学者出国参加国际会议10多人次,邀请国外专家访华,组织报告会和座谈会近10次。
3.报请国家技术监督局,申请加入国际术语网(TermNet),以获得完整的国际资料和更多地参与有关国际活动。
4.决定搜索、整理现有的国际资料,翻译出版《计算机辅助术语工作译文集》。
5.提出并制订一套建库国家标准,以对我国各单位建库工作进行标准化管理,保证建库质量以及未来各术语库间信息资源共享。
五、术语库开发用系列国家标准的构想
1.基础工作
由于我国有许多单位已经开始建库工作,而在建库标准化方面并无直接可参照使用的国际标准,因此,我国建库国家标准的制订必须从两方面入手。其一,研究国外的经验与教训,从理论的高度分析考虑建库中的各种问题;其二,收集并综合国内各建库单位建库过程中的实践经验,使制订的标准适合我国术语库开发的实际需要。
2.标准制订的三个阶段
鉴于目前我国建库的进展状况,建库系列标准应分三步走。
首先,在研究国外经验,相关的理论和技术的基础上制订《建立术语数据库的一般原则与方法》,解决建库过程应该考虑什么,必须注意那些问题,做那些工作。但是只提出原则性规定。因为在建库方面国内尚无成熟的经验,规定宜粗不宜细,要在各单位建库之前或之中搞好标准化原则与方法的协调。
其次,在积累经验的基础上,制订一部分特殊(具体)规定,解决建库工作应如何做的问题,例如制订:
《术语数据库开发规范》;
《术语数据库开发用文件编制指南》;
《计算机辅助术语工作和术语编目的数据元目录》(参照ISO/TC37/WD 15);
《对入库术语信息源、数据项、数据结构的基本要求》;
《对术语库计算机系统的基本要求》;
《术语/辞书编纂记录用磁带交换格式》(参照ISO 6156);
《术语库间数据交换的方法与技术要求》;
最后,解决术语库建成后的检验、评价、管理、维护等方面的问题,例如制订:
《术语库的审查与验收》;
《术语库的运行与维护》;
《计算机辅助术语工作的技术要求与评价》(参照ISO/TC37/WD 11)等。
3.标准制订过程的协调
在制订标准过程中,需吸收术语学、标准化学、辞书编纂学、计算机科学与技术、语言学、逻辑学、情报学、管理学以及各有关专业学科的专家参与,也要吸收各建库单位的代表参与,搞好标准化协调工作。
4.加强国际交流与合作
首先,向国外介绍我国正在开展的有关工作。在最近召开的有关国际会议,我们介绍了我国建库及建库国家标准制订方面的工作,引起了一些国际反响。ISO/TC37/SC 3以编号文件的形式分发了我国的有关资料:
《建立术语数据库的基本规定》(国家标准草案讨论稿纲要,英文本)ISO/TC37/SC 3 No.73。
《中国的术语标准化工作》(英文本)ISO/TC37/SC 3 No.74。
其次,促请国外有关机构和个人对我们的工作提出建设性意见,并向我们提供他们的经验。目前,我们已收到加拿大有关机构来信,希望我们提供我国建库标准草案的中文本,并表示愿意译成英文,法文后,与我国有关专家共同研究讨论。奥地利、加拿大、日本、德国、挪威等国的有关机构也向我国提供了他们建库方面的有关资料。
最后,是加强与国外或国际有关机构的双边和多边合作。奥地利、前苏联、日本、加拿大等有关方面均有意向与我国在该领域内进行双边或多边交流与合作。
六、我国术语库标准化工作的进展情况
1.两项国家标准91年完成审定报批:
《建立术语数据库的一般原则与方法》;
《术语/辞书编纂记录用磁带交换格式》。
2.已翻译有关国际文件:
ISO 6156《术语/辞书编纂记录中用磁带交换格式》;
ISO/TC37/WD 11《计算机辅助术语工作——技术报告》;
ISO/TC37/WD 15《计算机辅助术语工作和术语编目的数据元目录》;
ISO 1087《术语学词汇》;
ISO/DP 10241《国际术语标准的制订与编排》;
ISO/TC37/WD 10《概念体系(发展与表述)》;
ISO/TC37/WD 860《概念和术语的国际协调》;
Infoterm 8-87 en《奥地利标准的术语数据库》;
Infoterm 11-8 en《计算机辅助术语文献工作与知识传播——发展中国家的术语工作和知识管理》;
Infoterm 12-87 en《术语数据库的分类体系》等。
3.有关专家撰写论文及背景材料,例如:
冯志伟《国外术语库研制概况》;
安树兰、姜树森《ISO 6156参考资料——书目信息磁带交换格式》等。
4.两项新国家标准项目已列入计划,落实经费:
《术语数据库开发规范》,中国标准化与信息分类编码所负责起草,制订期为1991-1993年;
《计算机辅助术语工作的技术要求与评价》,国家语委负责起草,制订期为1991-1994年。
七、《建立术语数据库的一般原则与方法》国家标准草案基本框架
《建立术语数据库的一般原则与方法》国家标准草案的主要内容有:
1.术语库开发的宏观管理
建议分为三级:国家级标准化术语库;部委行业术语库;基层术语库。分别提出管理要求。
2.术语库类型及其结构描述
类型划分为:面向概念型、面向翻译型、面向特定领域型和其他特殊用途型四类。
结构划分为:信息源、输入端人机接口、术语库主计算机系统、术语库中处理的数据、输出端人机接口、库间(机-机)接口、用户等若干功能块。分别提出技术要求和管理要求。
3.质量控制
对构成术语库系统的各功能部分提出质量要求,对术语库系统在质量、性能、功能、效益费用比、兼容性等方面规定了若干基本要求。
4.过程控制
对建库过程规定了若干阶段及基本要求。
5.生成和使用
对术语库生成和使用的有关方面,例如数据输入、检索、排序、输出、更新等规定了一些基本要求。
6.维护与管理
简述了维护与管理的几个方面及基本要求。
7.信息资源共享
简述了库间信息资源共享的几个层次和基本要求。
八、《术语与辞书条目的记录交换用磁带格式》国家标准草案的基本内容
该标准草案提供了术语与辞书条目数据在磁带上的组织和标识方法,为单语种和多语种术语与辞书条目数据的交换规定了一种通用的格式。该标准还包括四个附录:附录A是经国内著名语言学、术语学专家研究确定的“汉语术语库推荐用术语数据项及其标识符”;附录B为“ISO 6156规定的术语数据项及其标识符”;附录C是“信息交换说明书”示样;附录D是相关的国际标准目录。该标准不仅为我国各单位术语库间磁带交换提供了统一格式,而且还为国际上术语库间涉及到汉语术语与辞书条目数据的交换提供了依据。
九、结语
术语数据库的开发,建库标准的制订是相互联系密不可分的两项工作,要搞好这两项工作,需要各有关学科领域的专家,各有关单位积极配合,要吸收借鉴国外的经验,加强国际间的交流与合作。
我们迫切需要进一步与国内外专家学者一道研讨术语库的研究与开发,及其标准化工作中的一系列问题。