中国科技术语

• • 上一篇    下一篇

国外术语数据库研制概况

冯志伟   

  1. 国家语言文字工作委员会
  • 出版日期:1988-12-15 发布日期:1988-12-15

  • Online:1988-12-15 Published:1988-12-15

摘要: 现代科学技术日新月异的发展,新的概念层出不穷,而任何新的概念都必须用新的术语来表达,这样,术语就成了人类社会的一种极为宝贵的信息资源,人类社会的科学和文明,都必然要在术语这种信息资源中留下其痕迹。
术语是语言词汇的一部分,由于其学术性较强,它们并不属于全民共同语的基本词汇。任何一个人也不可能掌握全部的术语。据英国语言学家统计,智力平常的英国人一般只能掌握数千个词,他们所能理解的词很难超过一万个,而现代英语的词汇量已远远超出了一百万个,因此,就很有必要对语言中大量的词汇进行搜集、记录和控制。在大量的词汇中,由于术语与现代科学技术的发展息息相关,它的搜集和整理工作就显得更加迫切和重要了。
早期的术语搜集和整理工作主要是编写各种专业性的术语词典。这些术语词典有单语、双语或多语的,由于专业种类繁多,语言各有差异,用传统的手工作业的方式来编写术语词典是一件十分艰巨的工作。
除了编写术语词典外,人们在术语标准化方面也做了不少工作。操同一语言的不同厂家给同类产品取不同的名字,常常导致术语的混乱,就是在同一单位内同一专业的人,对于同样的术语也常常会行不同的理解,这又引起了学术交流的困难。在不同的语言之间,这种情况就更为严重了。要进行术语标准化,首先就必须了解各个术语的具体情况以及术语使用者对各个术语的态度,为此,需要制作数以万计的卡片,这些工作用手工来做也是费力而又费时的。
另外,由于新术语层出不穷,已编好的各种术语词典需要频繁地进行更新,而目前术语词典的印刷和出版周期都比较长,远远满足不了频繁史新的要求。
可见,术语科学的发展,与传统的手工编写词典和各种卡片的方式发生了矛盾。在这种情况下,为了促进术语科学的进一步发展,必须对传统的手工工作方式进行改革,实现传统的术语工作的现代化。
电子计算机为这种现代化提供了有力的技术手段。
在本世纪六十年代中期,一些大型的术语数据库开始在国外建立起来。所谓术语数据库,就是一部概念和术语的自动词典,全部术语数据存储在计算机的存储介质中,通过数据库的指令或程序,对术语数据进行操作和处理,并根据用户的需要,输出术语的有关信息。这些建立在电子计算机上的术语数据库,存贮量大,检索容易,更新方便,受到了术语学家和用户的普遍欢迎。
我于1986年至1988年,受中国科学院软件研究所的派遣,前往联邦德国夫琅禾费研究院(Fraunhofer-Gesellschaft)新信息技术和通讯系统研究部进行术语数据库的研制工作,有机会亲自接触国外研究术语数据库的不少学者,有可能直接阅读许多在国内看不到的珍贵资料,了解到当前国外术语数据库研制的一些前沿的情况。现将国外主要的术语数据库介绍如下。
1.LEXIS:这是西德国防部的术语数据库,于1959年开始研制,1966年完全投入运转,数语数据库中所收术语主要由国防部翻译服务处提供,也有一部分术语是为翻译有关核潜艇的技术文献而搜集的。
LEXIS的术语工作与国防部翻译服务处的配合极为密切,术语的增加和更新都必须首先考虑翻译服务处的需要,每条新术语都要经过国防部内部的一个术语审定委员会的认可,才能收入LEXIS。
LEXIS系统的维护是面向用户的。由翻译人员提出需要输入的新术语,最多不得超过两个星期就得处理完毕。
为了不影响系统的研究和改进,LEXIS系统一分为二:一个是为用户服务的,在运行中,数据不能随便改变,另一个是供研究用的,数据可以修改,等系统更新之后,再提供用户使用。由于供用户使用的系统与供研究改进的系统严格分开,整个LEXIS的工作有条不紊。
LEXIS现有工作人员约40人,其中包括20个术语词汇学家和5个计算机专家,术语的年平均生产量是35,000条术语,每个工作人员平均每天生产16条术语。每一条术语至少要注明德文和另一文种(如英文),因此,每条术语实际上是德语一一外语的术语对。
由于西德国防部的大多数翻译工作是从英语译为德语,全部术语记录中都包括德语,当需要从英语查询法语的术语时,必须通过德语术语为媒介。LEXIS术语库中的语言,现有英语、德语、法语、俄语、波兰语、荷兰语和意大利语等七种。
所收术语的专业领域有国防、航天、天文、数据处理、电子学、工业管理、机械工程、物理、造船及电子通讯等。术语库中的术语定期地进行新的增补。
LEXIS系统在两台IBM中型计算机上运行:一台是IBM3033,供联机处理用,一台是IBM3031,供批处理用。这两台计算机都安置在波恩的西德国防部计算中心。输入数据时,必须通过打字员按一定的格式录入信息,可见其外围输入设备并不很好。输出时,除一般由打印机打印外,还可采用磁带输出、缩微平片输出及COM设备(计算机缩微胶片输出绘图仪),输出质量较高。
LEXIS的主要用户是西德国防部翻译服务处,使用时,翻译人员不能直接向系统提问,而是首先由他们把被翻译文章中出现的困难术语划线标出,然后再由数据打字员以批量表的形式输入系统。此外,西德国防部的外语教员、西德联邦政府国防部以外的其它部以及Brown Boveri & Cie公司也可使用该库。LEXIS还将术语库中的一部分数据制成缩微平片出售,但是,由于保密等原因,术语库中大部分数据的存取是受到严格限制的。
除了出售缩微平片有少许收入外,LEXIS的经费全由西德政府提供,它是目前在西欧唯一完全由政府给予财政支持的术语数据库。
为了改进输入技术,LEXIS目前正在研制一个文章自动阅读系统,该系统可对欲翻译的文章自动地生成一个术语表存入术语数据库中。
2.TEAM:这是西德西门子公司的术语数据库,建于1976年。西门子公司在慕尼黑(München)设有外语服务处,在多年的翻译实践中,他们积累了数量相当可观的多种语言的技术术语,再加上西门子公司在计算机的硬件和软件技术上有很大的优势,当把这些技术术语在先进的计算技术的支持下建成术语数据库之后,便显示出术语数据库的优越性,大大地提高了西门子公司外语服务处的工作效率,同时,还把多年精心积累的技术术语变成了可以获得经济效益的术语库产品。
根据用户的不同情况,TEAM术语数据库除了为西门子公司的各个部门服务之外,还可为其它单位提供服务,并为出版部门进行数据处理。
TEAM现有工作人员约30人,其中有12个术语词汇学家,8个计算机工程师,术语的输入工作大部分是临时雇用打字员利用OCR-B专用输入设备来进行的。年平均生产量只是10,000条术语。而从理论上说,平均每个术语学家一年可加工3,333条术语,为了克服人浮于事的现象,TEAM的人员将要进行精简。
TEAM数据库现有术语1,000,00条,可分成若干个独立的子库(Pool),所有的术语条目都包含德语术语并至少包含一种等价的外语术语。但是,术语的条目数并不等于术语库中所存储的概念数,因为在各个子库之间,存在着大量重复的术语,各个单独的子库可以按自己的计划各自发展,而每个翻译单位还可以单独建立自己的子库;甚至西门子公司之外的一些用户,如荷兰外交部翻译服务处、荷兰菲利浦(Philips)公司联邦德国标准化委员会(DIN)、词典出版商等,也可以建立自已的子库、并纳入TEAM系统,这样,TEAM系统就显得非常庞杂,但也因此而获得了更多的用户。
TEAM术语库中的语言,现有德语、英语、法语、西班牙语、俄语、葡萄牙语、荷兰语、阿拉伯语等八种。
所收术语的专业主要是电子学、数据处理以及跟西门子公司的主要商业活动有关的领域。
TEAM系统建在Siemens 7000计算机上,输入方式可采用OCR-B专用打字机、软磁盘、VDU视频显示器(配有30个VDU)、文件编辑器等多种。输出方式也多种多样,可采用打印机、COM计算机缩微胶片输出绘图仪、照相排版、缩微胶片、磁带以及VDU等。所有的输入输出方式都配以相应的设备。由于有西门子公司在技术上作为后盾,TEAM的设备之先进,是其它的术语数据库系统望尘莫及的。
TEAM的用户主要是西门子公司的翻译人员及技术文献的编辑人员。除此之外,荷兰外交部翻译服务处、荷兰菲利浦公司以及生产术语缩微胶片的翻译部门都可以使用TEAM术语数据库,联邦德国标准化委员会(DIN)、同西门子公司有关系的出版商,还可使用TEAM系统的硬件及软件。
TEAM术语库是西门子公司外语服务处建立的,它得到了西德政府的支持。由于西门子公司以外的用户都为TEAM提供的服务交费,TEAM术语库现在已经能自己养活自己了。
近年来,西门子公司开始研究机器翻译,他们打算把TEAM术语数据库与机器翻译联系起来,利用TEAM数据库,采用人机对话的方式来查询机器翻译中翻译不了的生僻术语,这样,就可以把术语库中术语的存取与机器翻译中的文句自动分析技术结合起来。
3.EURODICAUTOM:这是欧洲共同体的术语数据库。这个数据库是在DICAUTOM及EUROTERMS工作的基础上建立起来的,于1969年开始研制。
EURODICAUTOM系统的研制目的有三个:第一、给欧洲共同体总部的翻译人员提供一个方便、灵活的动态联机系统,使他们能迅速地查询到有关的新术语。第二、把欧洲共同体各国的术语工作集中起来,避免重复劳动,使得这个系统能够为欧洲共同体各翻译服务部门的翻译人员使用。第三、在一定程度上,把欧洲共同体七种官方语言的文件的术语协调和统一起来。
EURODICAUTOM系统现有12个术语词汇学家,他们几乎都上全日班,此外,还有自由职业的翻译人员(平均6人)和打字员(平均4人)作辅助工作,程序设计由翻译服务部之外的人来进行。
EURODICAUTOM术语库的语言,现有英语、法语、德语、意大利语、荷兰语、丹麦语、西班牙语、葡萄牙语、目前正设法把使用非拉丁字母的希腊语也包括进来。该系统有250,000条普通术语及75,000条缩写术语,术语的更新速度是每年10,000条。
所收术语的专业内容十分广泛,几乎涉及各个技术学科及自然科学基础学科,这是因为欧洲共同体是一个国际组织,它的翻译领域广,内容杂,与单一国家的情况大不一样。
EURODICAUTOM术语库原来建在IBM370/158计算机上,现已转到Siemens 7760上运行,外围设备有大量的VDU视频显示器。
EURODICAUTOM术语库的用户主要是欧洲共同体总部的翻译人员,共同体的其它单位和官方机构亦可对术语库提出询问,据统计,该术语库每天平均回答638个问题。
为了供欧洲共同体各国使用这个术语库,EURODICAUTOM还通过EURONET通讯网络,为共同体内的两百多个向EURODICAUTOM登记过的单位提供咨询服务。此外,该系统还与联合国教科文组织(UNESCO)、经济合作与开发组织(OECD)、卫生组织(WHO)以及法国的NORMATERM术语数据库、瑞典技术术语中心TNC等建立了密切的联系,还将一部分软件移植到墨西哥术语文献中心去。
EURODICAUTOM术语库由欧洲共同体提供财政支持。
4.NORMATERM:这是法国标准化组织AFNOR的术语数据库。开发这个术语库的目的,就是为了控制和存取AFNOR日益增加的术语。由于标准化的特殊需要,只有那些经过AFNOR认可的标准术语才能收入NORMATERM的术语库中。
目前,AFNOR并没有设置专门机构来管理NORMATERM。术语库的工作由AFNOR情报文献服务处兼管,这个情报文献服务处现有13个情报文献专家、2个图书馆员、1个非全日制的术语词汇学家、2个全日制的翻译人员,20个非全日制的翻译人员,他们除了管理NORMATERM以外,还得做情报文献方面的工作。
由于NORMATERM术语库只收标准术语,它对于所收术语的控制是十分严格的,每一条术语都要求绝对可靠。术语库现存23,000个概念,以法语为形式来存储。这些概念都根据AFNOR和ISO的有关术语标准作过认真的审查和仔细的校核。AFNOR还打算把国际电工词汇也收入到这个术语库中。由于审查很严格,术语的年平均生产量只有1000条。
NORMATERM术语库建在法国标准化组织计算中心的IRIS45计算机上,这台计算机主要用来管理AFNOR的文献,用于术语数据库的联机工作时间每天只有1小时。术语数据的输入采用读卡机,输出采用宽行打印机、COM设备和VDU视频显示器。
NORMATERM术语库除了用来作AFNOR的术语标准化工作之外,还要为AFNOR的情报文献学家作主题词表的工作,因而AFNOR是其主要用户。另外,工业界的一些赞助者亦来NORMATERM存取数据。
NORMATERM主要由法国政府提供财政支持,同时亦得到了工业界的赞助。
5.TERMDOK:这是瑞典技术术语中心的术语数据库。北欧国家语言比较复杂,给科技交流及进出口贸易带来不少困难,因此非常需要建立多语种的术语数据库。TERMDOK术语库现收术语70,000条,使用语言有瑞典语、英语、法语、德语、西班牙语、丹麦语、挪威语、芬兰语等。这个术语数据库的建立,对于克服北欧国家的语言障碍大有好处。由于涉及语种较多,术语的年平均生产量是5,000条到10,000条。
TERMDOK现有4个术语词汇学家、3个文献学家,他们在瑞典技术术语中心还有其它工作,不能在TERMDOK上全日班。
TERMDOK术语库原是建立在微型计算机上的,但随着存入的术语数目的增加,很快就暴露了微型计算机的局限性,现已转到DEC-10数字计算机上。
TERMDOK的服务方式是多样的。用户可打电话直接向瑞典技术术语中心查询术语,除了供用户查询以外,TERMDOK还出版了一些多语言术语词典,并定期向读者提供情报服务。
TERMDOK得到瑞典政府的财政支持,同时,通过出售词典和咨询服务,也可有一些经济收入。
6.TERMNOQ:这是加拿大魁北克法语委员会的术语数据库。
TERMNOQ是根据魁北克省101号法令的精神而建立的。这个法令要求,在魁北克省的一切公司和单位都必须使用法语。因此,英—法双语言的术语研究就显得更加重要了。
TERMNOQ现有70个术语词汇学家。术语库系统的维护由7个计算机工程师组成的一个小组负责,他们有75%的工作时间用于TERMNOQ。
该术语库存的术语达1,000,000条英—法术语对。已经确定的术语存入一个公共文件中,而正在研制的术语则存入工作文件中,术语的存取受到严格的限制。
TERMNOQ建立Amdahl计算机上,输入通过软磁盘及VDU视频显示装置来进行,可容许联机操作,但数据的处理及更新是脱机的。
这个术语库供魁北克省的官方机构及公司使用。在法国巴黎装有一个终端,叫做FRANTERM,但尚未运行。
TERMNOQ的开发和研制完全由魁北克政府提供财政支持。
7.TERMIUM:这是加拿大蒙特利尔大学开发的术语数据库。加拿大国务院早在1974年就要求在加拿大各政府机构中使用英语和法语的标准术语,而加拿大政府的文件都要有英语和法语两种文本,必须进行规范的翻译,翻译任务是很重的。为了提高加拿大政府翻译服务处的工作效率,才由蒙特利尔大学开发了这个术语数据库。
TERMIUM的工作人员很多,雇用了100多个术语词汇学家,术语库系统的维护由4个程序人员组成的专门小组来负责。
加拿大联邦翻译局在从事浩繁的英法对译工作中,积累了成千上万的英语和法语术语,因而自建库以来,术语库中的术语条目与日俱增,现已达1,700,000条,除去重复多余、质量较差的条目以外,至少也有600,000条优质的术语。术语的专业领域极为广泛,几乎涉及各个科技部门。
TERMIUM术语库建在CYBER74计算机上,主要用户是加拿大联邦政府的翻译人员。另外,在加拿大的某些驻外机构(例如,巴黎的文化中心、布鲁塞尔的加拿大驻比利时使馆)也可以对TERMIUM存取术语数据。
TERMIUM由加拿大联邦政府提供全部财政开支。
8.GLOT:这是联邦德国夫琅禾费研究院的术语数据库,建立于1985年。
为了促进欧洲计算机信息处理的研究,在信息技术领域赶上日本和美国,保持和增强西欧的工业竞争能力,欧洲共同体提出了ESPRIT(“埃斯普里”)计划。所谓ESPRIT,就是“欧洲信息技术研究和发展战略计划”(European Strategic Programme for Research and Development in Information Technology)的首字母缩写。在ESPRIT计划中,有一个课题叫做HUFIT(Human Factors in Information Te-chnology的简称),专门研究人的因素在信息技术中的作用,而GLOT术语数据库的研制就是HUFIT的一个重要方面。
GLOT术语数据库建在DEC-VAX11/750机上,使用VMS操作系统及ALL-IN-ONE软件。从1988年开始,为了进一步扩充术语并改进系统的性能,拟改用UNIX操作系统和ORACLE关系数据库。
GLOT术语库中,每条术语包括下列项目:德文术语、专业领域、上位概念、等价的英文术语、等价的法文术语、同义术语、缩写术语、概念类别、出处、日期、定义等。定义一方面由研究院内的专家撰写,一方面采用忒尔斐法(Delphi-method)向研究院外的专家咨询,同时,还从各种术语标准和专业词典中精选一些定义。这样,就可以做到每条术语都具有一个权威性的定义,为术语的标准化提供了依据。
根据中德科技合作协定,我国学者于1986年到1988年在夫琅禾费研究院参与了GLOT术语数据库的研制,使用UNIX操作系统及INGRES关系数据库,建成了中文术语数据库GLOT-C。
GLOT-C术语库收入了国际标准化组织从1974年到1985年期间公布的ISO-2382标准中的全部数据处理术语。每一个术语条目包括如下项目:术语的索引号、英文术语等价的中文术语、中文术语的概念类别、中文同义术语、中文多源术语、用户对术语的使用态度、术语的使用地区限制和使用专业领域限制、中文术语的结构格式、中文术语的歧义类型。从这些内容可以看出,GLOT-C中文术语数据库是从术语规范化和标准化的角度来建立的。
与国外现有的其它术语数据库相比,GLOT-C中文术语数据库的显著特点是:
第一、重视术语结构与歧义的研究,提出了“潜在歧义理论”(Potential Ambi-guity Theory,简称“PA论”)。“PA论”认为,当汉语术语中的词组类型结构及句法类型结构不存在“一一对应”的关系时,就会产生潜在歧义。在术语的词组类型结构中插入词汇单元后,这种潜在歧义可能消失,也可能转化成现实的歧义结构。对此,“PA论”制定了在中文术语数据库中判定术语歧义的原则和方法。根据“PA论”,可以从中文术语的词组类型出发,经过有限步骤的分析,准确地判定中文术语的歧义类型。
第二、重视术语数据库基本理论的研究,提出了“术语形成的经济律”,证明了术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度,并提出FEL公式来描述这一定律。进一步的实验证明,FEL公式也适用于其它语言的术语数据库,因而它是描述一切术语数据库结构的一个普遍公式。
9.其它术语数据库:
丹麦政府正开发一个国家级的术语数据库DANTERM,主要供大学科研部门使用,主机为PRIME/550计算机。
联邦德国标准化委员会DIN正在开发一个术语数据库TERM,现有术语56,000条,该术语库与TEAM及EURODICAUTOM有较多的联系。
民主德国的德累斯顿技术大学正在开发一个术语数据库EWF,使用苏联制造的БЗСМ-6计算机。
苏联技术情报分类和编码研究所正在开发一个术语数据库ASITO,使用MINSK 22M计算机。
荷兰海牙的SHELL公司正在开发一个术语数据库叫做mechanized dictionary,工作人员17人,现有术语14,000条,使用IBM370/168计算机。
法国克莱蒙费廊大学(Université de Clemont-Ferand)开发了一个小型的术语数据库CEZEAU,仅存建筑工程方面的英语和法语术语。
委内瑞拉加拉加斯的西蒙·博利瓦尔大学(Universidad Simon Bolivar)语言学系也正在开发一个术语数据库,以搜集、储存和传播与该大学有关的各技术领域的标准术语。
除此之外,正在开发的数据库还有:
美国国家标准局在华盛顿的术语数据库,采用UNIVAC计算机和KWIC软件。
加拿大IBM公司在蒙特利尔的术语数据库,采用IBM计算机和STAIRS软件,现有工作人员18人。
法国IBM公司在巴黎的术语数据库,采用IBM计算机和一个支持文献翻译的软件。
日本科学技术情报中心在东京的术语数据库,采用HITACHI8450计算机和一个词汇控制系统的软件,已收术语35,000条。
日本国际医学情报中心在东京的术语数据库,采用IBM370计算机。
瑞士的Brown Boveri & Cie公司在巴登(Baden)的术语数据库,采用IBM370/158,这个术语数据库是从LEXIS移植的。
瑞士人造丝及合成纤维标准化国际管理局在巴塞尔(Basel)的术语数据库,现有3名工作人员
美国Weidner通讯公司在犹他州的术语数据库,使用DEC11/70计算机,现有工作人员17人。这个术语数据库可以支持该公司的机器翻译系统。
世界气象组织在瑞士日内瓦的术语数据库,采用IBM370/158计算机,现有工作人员11人。
联邦德国Ruhrgas公司在埃森(Essen)的术语数据库,采用IBM计算机,软件是在EURODICAUTOM的基础上修改而成的。
英国伦敦不列颠图书馆也正在开发一个术语数据库,现有工作人员4人。
由此可以看到,术语数据库的研制现在已经风靡全球。特别是在科学技术比较发达的国家,术语数据库的研制进展得非常迅速。
研制术语数据库软件包的耗费是巨大的。LEXIS,TEAM或EURODICAUTOM的程序耗资都各超过了50万美元。因为术语数据库软件的研制是一个全新的领域,需要采用别具一格的富于创造性的新的软件技术。既使是一些在计算机方面颇有经验的单位,也需要在过去的基础上研制一套新的程序,其耗资也不会少于20万到25万美元。
为了存储大量的数据,进行联机的或脱机的输入并进行检索,目前所有的大型的术,语数据库系统都使用了大型的计算机设备,采用了现代化的输入手段。在大多数情况下,输入仍采用脱机方式,只是在修改术语库或有紧急任务时,才采用联机输入。输出一般也是采用脱机方式,因为计算机终端的价值较高,而且有些用户不习惯于直接使用这种现代化的计算机设备。当然,随着计算机科学的进一步发展,联机输出将会越来越普遍。
我们把LEXIS、TEAM、EURODICAUTOM、TERMDOK、NORMATERM五个主要术语数据库的详细特征,列表比较见下页表。
表中未列出TERMIUM及TERMNOQ的详细情况,因为这两个术语数据库的设计人员认为,现有的软件已满足不了工作的要求,他们拟把原系统作根本性的修改。
从表中可以看出,LEXIS,TEAM和EURODICAUTOM三个术语数据库是当今内容最丰富、条目最完备的数据库。
目前,微型计算机的技术日益先进,有的微型计算机的性能已达到了中型计算机的水平,因此,采用微型计算机来建立术语数据库,也是有可能的。
上述各主要术语数据库的研制目的不尽相同。EURODICAUTOM是为了翻译人员的需要,NORMATERM是为了标准化的需要,而TEAM则采用一般性的办法,以适应各种不同的需要,甚至还可以满足词书出版商的需要。在各种不同的研究背景下,这些术语数据库不能彼此兼容,它们的数据库磁带难于互换。
就是研制目的相同的术语数据库,术语条目的格式、数据的结构也不完全一样,彼此之间也很难兼容。
这些情况说明,有必要协调世界范围内的术语和术语数据库的工作,这就是术语数据库的标准化问题。研制术语数据库的动因之一是术语标准化,而术语数据库研制的实践又出现了术语数据库本身的标准化问题,对标准化又提出了新的要求。
国际标准化组织ISO TC37技术委员会和设在奥地利维也纳的国际术语情报中心
INFOTERM在术语数据库的标准化方面起着重要的作用。ISO制定的标准ISO DP 6156-1980“用于记录术语/词汇的磁带格式”(Maguetic Tape Format for Terminological/Lexicographical Records)以及INFOTERM提出的“用于机器处理的术语数据记录方式指导草案”(Draft Guidelines for the Recording of Terminological Data for Machine Processing)都是设计术语数据库时必不可少的参考资料。如果我们对于术语数据库的标准化问题以及术语数据库之间的兼容问题给予足够的重视,那么,将会减少重复性工作,最大限度地发挥术语数据库的潜力。