王渝丽
Wang Yuli
摘要: 在即将迈入21世纪的今天,科学技术突飞猛进,科技方面新的名词不断出现,科技交流、国际合作已十分广泛。世界经济、科技已进入信息化时代。特别是电子与信息科学,随着其学科的发展,不断产生并引入表达新概念、新技术、新事物的新词,同时经济发展和日常生活也迫切需要运用科学的、规范的术语进行交流,有关术语的研究工作变得日益重要。我国的术语数据库工作近十多年发展较快,为名词术语的统一、规范化作出了贡献。
一、我国的术语数据库工作
术语数据库是实现术语信息管理自动化的工具。我国的术语数据库工作开始于20世纪80年代初,发展于90年代初。1981年与1984年奥地利国际术语信息中心主任、国际标准化组织术语技术委员会秘书费尔伯(H.Felber)教授先后两次来华访问讲学,介绍了国际上建立术语库的动态,引起了国内有关学者们的注意。
1985年加拿大国务秘书部的朗德利(A.Landry)率领加拿大术语代表团访华。他们介绍了世界上最大的术语数据库(Termium)的工作情况,并为中加术语合作提供了有利条件。随后,我国国家出版局(现为国家新闻出版署)和全国自然科学名词审定委员会(现为全国科学技术名词审定委员会)派出了考察团,学习了有关术语数据库的先进经验。
1989年以来,我国许多部委或所属的研究单位陆续开始建立不同类型的术语数据库。例如:机械部机械工程术语库、农业部农业科学院农业叙词库、化工部化工术语数据库、中国科技信息研究所的英汉科技分类词库、国家新闻出版署建立的中国百科术语数据库、国家语委的应用语言学术语库、测绘术语数据库以及全国科学技术名词审定委员会的科技术语数据库等等。
术语信息是现代社会发展必不可少的信息资源,而建立术语数据库则为信息资源共享提供了便捷的途径。术语数据库的研究与开发,是术语学与术语标准化工作的重要内容之一,也是术语信息管理与使用的重要手段。为了我国术语数据库的建设,国家质量技术监督局近十年颁布了一系列有关术语学、数据库建设的国家标准。例如,《确立术语的一般原则与方法》(GB 10112-88)、《建立术语数据库的一般原则与方法》(GB/T 13725-88)、《术语数据库开发指南》(GB/T 15378.2-94)、《术语数据库技术评价指南》(GB/T 15625-1995)、《信息处理文本和办公系统标准通用置标语言(SGML)》(GB/T 14814/ISO8879)、《术语工作计算机应用:数据类目》(GB/T 16786-97)、《术语工作概念与术语协调》(GB/T 16785-97)等。这些标准与国际有关标准接轨。因此,遵循标准建设的术语数据库是规范的,并为数据交换,信息上网提供了便利手段。其中,标准通用置标语言(SGML,Standard Generalized Markup Language)就是为了适应日益发展的信息交流而建立起来的一种国际标准。目前,它对通用编码和通用置标概念的应用实行标准化,为描述用户选定的内容提供了一种清晰的且无歧义的语法。
超文本置标语言(HTML,Hype Text Markup Language)是一种特殊的SGML语言,由于它在因特网浏览器上的日益广泛使用而受到重视。在HTML中,很容易实现文本的相互连接和跳转。建设术语数据库目的是信息交流,因此,数据的交换格式必须符合相关的国际标准。
二、几个重要的术语数据库
经过多年的工作,术语数据库在我国得到了发展,下面简要介绍几个主要的术语数据库:
1.机械部机械工程术语库于1988年列入机械部科研计划,1991年成立了机电术语信息中心,负责组织实施。其第一期工程收录了44000多条术语数据记录,包括20多万个数据。分为机械工程、电工及仪器仪表三个部分。
该库在设计上,认真学习了国际上建设术语库的经验,在微型计算机上用Windows作为操作环境运行。每个记录包括:定义、上位词、下位词、同义词、学科领域等,并附有相应的英、俄、德、日、法五种外文对应词及来源等,共计36个术语数据项目。其总框架以学科分类体系为主,兼顾专业,采用三级类目。编审工作是按照相应国家标准的要求进行的。1995年曾邀请联合国工业发展组织的专家组进行了评估;1996年第一期工程通过了验收,该库被认为达到了国际先进水平,并被评为全国科技信息系统优秀成果一等奖。
有关部门与德国国际术语与应用语言学中心达成协议,出口该库部分数据,用以充实德方的术语库。此外,国内许多企事业单位也购买了该术语库的有关术语数据。现在,该库已开始获得经济效益,并准备开始第二期工程。
2.中国百科术语数据库始建于1993年。它以我国首部综合性百科全书《中国大百科全书》(第一版)为依托。《中国大百科全书》有近8万个条目,涵盖56个学科,该库是我国首例大型的、面向概念的综合性多功能术语数据库,由以下子库组成:①百科全书:主要包括《中国大百科全书(第一版)》条目;《中国大百科全书(简明版)》条目和其他权威百科全书;②术语库(百科术语、国家标准术语等,每条术语含11项,主要包括术语编码、中文术语、汉语拼音、英文、定义、学科领域、国家学科分类代码、来源、等级等);③名人库(主要在《中国大百科全书》出现的中、外名人);④图片库。现有术语数据70余万条,该库的建立,不仅能提供多途径检索库中的知识,而且为编辑自动化提供了良好的基础。
该库计算机系统采用client/server结构,主机选择的是DEC server 2100,数据库服务器上操作系统采用UNIX,数据库采用Sybase10及北大方正集团提供的信息检索系统(Inforbase),编辑自动化服务器上操作系统采用NT3.51,客户端采用Windows 3.11检索软件和编辑软件。在开发过程中,遵照了有关国家标准和国际标准,成功地开发了标准通用置标语言(SGML)中文软件,并提供了SGML格式到HTML(超文本置标语言)格式的转换表。现在,出版社内联网(intranet)已连通,并开始对用户服务。
在新闻出版署的大力支持和跟踪管理下,中国百科术语数据库在1997年9月已通过验收,专家们认为该库的水平在国际已处于先进,在国内已处于领先。它已被新闻出版署评为1998年度科学技术进步一等奖。
信息资源的建设是非常重要和艰苦的,在这方面他们所作的工作只是初步的,带有探索性的。现在即将开始百科术语数据库的扩建工程,逐步完成百科数据库多媒体工程和因特网上网工程,并依据有关国际标准和国家标准,进一步开发、完善这个数据库。
3.1992年中国科学技术信息研究所开始建立机读汉-英、英-汉科技词库,收有50万条词,现已基本建成,拟发行《综合汉-英科技词库》印刷本及其机读版。以后拟将词量扩充到100万条,并进一步增加日、俄、德、法语种对照,建立语料库,最终将建成机读多语种词语知识库。
此库建成后,将对语言学中的机器翻译,信息交流中的自动标引、自然语言检索和专家系统与人工智能等方面的研究起到重要的支持作用,并可用于编制或修订主题词表、辅助机读数据库,对录入的大量中外文词语进行书写校验;编辑出版多语种词典、手册(印刷本和机读版)等。
4.1989年中国农业科学研究院开始建立农业叙词库。该库是农业部的科研项目。经过四年的工作业已完成,并被评为国家科技进步二等奖。
5.1991年在社会科学基金支持下,国家语委应用语言研究所建立了应用语言学术语数据库(TAL术语库)。他们从专业书刊及辞书中挑选、输入了2万条术语记录,每条记录包括6个数据项,即分类号、英文名、汉文名、汉语拼音和结构(汉语名称的结构表达式)、出处等。该库是在IBM-PC机上以DBASE Ⅲ语言编制的。该库可用来辅助有关术语的标准化与规范化工作。
该库还可通过结构的查询,研究汉语术语的构造问题,为构造术语提供了便利的条件。此外,该所1992年还建立了计算语言学的术语库。
6.1995年由全国科学技术名词审定委员会建立的科学技术名词术语数据库主要收集了该委员会审定通过的科学技术名词。全国科学技术名词审定委员会是我国专门进行科技名词审定的部门,是代表国家进行科技名词审定和公布的权威性机构。经该委员会审定、公布的科技名词具有权威性和约束力,全国各科研、教学、生产、经营及新闻出版等单位均要遵照使用。参加名词审定工作的均为我国各学科领域的高水平的科学家。
目前,该术语库已有13年来公布的物理学、数学、化学、生物化学、地质学、医学、电子学、计算机科学等40个学科的名词术语,约14万余条。该术语库主要是英汉词汇对照,按学科的相关概念体系排列,部分词汇有释义,例如,大气科学、煤炭科技、水利科技、船舶工程等。现已开始有计划地增加定义。另外,还建立了新术语子库,主要收集了当今世界上科技领域新出现的名词术语。该库采用dbase Ⅲ和Orcle编程。
现在,已出版了公布的40个学科的名词术语,并准备出版电子出版物。该库正陆续增加新审定的名词术语,以便更好地消除术语混乱现象,促进我国科研、生产、教学和学术交流。
术语库的建设是一项基础建设性工作,其投入大、工作量大、工期长、见效慢,但作为信息资源的一个重要的基础性品种,各行各业都是需要的。但我国的建库工作尚缺乏协调,内容有重复,浪费了力量,应引起国家有关部门的重视,并要加强领导力度。随着计算机技术的不断发展,计算机性能的不断提高以及计算机网络应用的日益普及,其应用也深入到社会的各个方面,正在逐渐改变着每个社会角落、每个人的生存环境和思维方式。
目前,因特网技术日益成熟,并且迅速在全世界得到广泛应用。现在,我国加入因特网的用户已达几十万户。他们不仅在网上建立了自己的宣传阵地,而且要获取自己需要的信息。因此,发展网上术语数据库将加快术语的传播、交流,做到资源共享,推动术语的统一和发展,这一工作的重要性将逐步得到人们的重视。