中国科技术语

• 论文 • 上一篇    下一篇

术语数据库的分类体系(译自Infoterin 12-87cn)

Wo1fgang Nedobity   

  • 出版日期:1989-06-15 发布日期:1989-06-15

Classification Systems for Terminological Data Banks(Translated by Wu Jian)

吴俭   

  • Online:1989-06-15 Published:1989-06-15

摘要: 1.引论
对术语数据库中的条目来说,学科编码是最重要的数据元素之一。如果已知概念的学科领域,即属于哪个概念系统,则一个概念就可以唯一地确定。
数据库与数据库之间,学科领域的安排有所不同。根据人们的特殊需要,一方面可选择一个比较通用的或比较专门化的系统;而另一方面可选择比较粗略的或比较详细的系统。为了实际工作,对各个范畴和专题进行编码。编码应该既具有助记特性,同时也反映学科领域的结构。尤其是那些着重于术语的数据库,没有学科编码就不能工作。学科编码能区分同音异义词,以及确定一个概念的有效范围和边界。为了获得某学科领域的全部条目,用户可以灵活地运用学科编码。
通常有方便地提供整个学科领域概貌的文件和用于编制条目的编码。仅当这种图表是层级结构时,人们才能谈到分类。
在分类词典中,每个概念是放在与其相关的概念附近。这样一种相邻关系,即一个概念的范围可以由分类法中的一个描述符(或它的编码)表示。同样这也可用于文献数据库的如果一个描述符的范围没有明确,例如它比用户所希望的范围宽,那么用这个描述符检索的某个概念可能被用于不恰当的上下文之中。
此外,术语库之间交换术语数据时,学科编码迟早会有用。在这种情况下,如果有一个共同的基本分类法,是很有好处的,否则需进行协调。最后,若想在相同学科领域的一套概念中找到所需的概念,那么确定下对等性,是很方便的。
2.选择分类体系的简述
下面根据通用性。运行时间的长短和用户可用性等方面,选出世界各地的几个术语数据库进行讨论。
2.1 加拿大政府术语库(TERMIUM)(渥太华)
该库条目的分类是根据蒙特利尔大学术语库(BTUM)设计的系统完成的。它是一个由三级组成的层级系统。该系统允许用户加宽或缩窄查询方案。其标志法是由一个字母的编码构成的。第一级的26个主类代表加拿大政府的主要活动,而主类又进一步分成一些领域,这些领域一起为考核一个词目概念提供17,500个可能性。这个系统具有灵活性高而很少需要助记设备的特点。
由于对各种方案的大量研究,向翻译署证明,当应用于术语学时,文献分类方案是不适合的,因此在新建的TERMIUMⅢ中保留了TERMIUM的分类方案。
尽管该库是更新的,但其基本结构相同。因为这个用整个领域或很有限的数据群设计的分类工具,便于数据中专门信息的检索。
2.2 欧洲共同体(CEC)的术语数据库——EURODICAUTOM
CEC的术语数据库是非常通用的术语库,因为它实质上覆盖所有学科领域。该分类系统由汉斯·莱诺赫(Hans Lenoch)设计,同时他也为该库建立了一个专用的标志法。这些描述符是建立在适合CEC管理需要的国际十进制分类法的基础上。
这个系统包括46个主群,这些主群由两个字母码表示。这种编码以描述符的法文版本为基础。每个主群又可以分为34个子群,这些子群由1-9的数字或A-Z的字母来表示(为了避免混乱,删去“I”)。其结果是具有高助记能力的一组三个字符的编号,特别是因为第三个字符在意义上是继承性的。EURODICAUTOM的术语文件中,一个条目通常按许多的标志分类。然而,如果有一个更为细致的方案是可用的,那么其概念的分类就会更为准确。实际上,这个系统是分类法与主题词表的混合体,同时它也被华盛顿的World Bank和日内瓦WHO两个术语库所接受〔2〕。这里一个特点是具有用虚线截断的可能性。理论上讲,这个系统应允许1,564个学科标志,但实际上只使用了少一半。该系统也有一个实际工作中必需的按字母排序的描述符索引。
2.3 西门子公司AG语言服务——TEAM(西德慕尼黑)
总的来看,这个数据库以工程、特别是以电子工程和计算机科学为重点,覆盖了全部学科领域。它的分类表是来自为提供电子工业文献资料这一目的而编制的目录。这个方案在最初建立的层级次序之后,特别在实用方面加以扩充了。它的编码是由一个字母再加上四位数字*组成。由于这种标志完全不存在助记价值,用户也可以用描述符的编写形式表示学科领域。从一种“贴标鉴”形式到另外一种形式,有一方便的转化程序,并可以实现完整形式、缩写和编码的检索〔3〕
2.4 “术语情报服务自动化系统”的术语数据库SBT ASITO(苏联)
这主要是为标准化术语建立的数据库。因此它用的分类系统是与“苏联国家标准的全联盟分类码”(ALL-Union c1assifier of the state standards of the USSR)相一致的。这是建立在由10个字符构成标志的系统。前两个字符表示前面提到的“分类码”的章节号,这意味着字母编码被转化为数字了。
第三与第四位上是分类码行中的类与群。接下去的六个数字与标准目录中的标准识别号相同,这个标准目录与有关概念的区分号相关联。因此有可能限制对从属于某专业学科领域的条目,一种特殊标准型文件或一些其它项目,进行查询。这个分类体系的设计是在文件RD 50-379-83“为术语标准化提供的内容和指令信息”(Contents and order of providing information for termino1ogy standardization)的基础上建立的。ASITO还便于自动验证用于科技情报的全联盟分类码和情报检索的主题词表〔4〕
2.5 丹麦术语库DANTERM
术语按分类标记的方法使之归属于某一学科领域,靠此方法用户能够将一个术语与术语库中分在另一学科领域的同音异义术语区分开来。所用的这个分类体系是通用的北欧日尔曼语的“北欧术语”分类法〔5〕。提出全北欧术语库使用通用分类法建议的是丹麦技术图书馆的艾温·安德森(Ejvind Andersen)。该建议曾于1985年1月在赫尔辛基北欧术语组织大会上由第二工作组讨论并扩充。
其标志由五个字符组成,开始用一个字母表示宏观单元(A-Q),接着由4个数字表示层级体系中的四个层次。一个宏观单元不能包含超过2,000个术语单元。
上述会议决定将此分类法译成全北欧的各种语言,并在各种术语库中考验这一分类法〔6〕
3.各体系的分析和比较
3.1 标志
我们所考察的术语数据库,其标志或是字母的,数字的,或是字母数字共同使用的编码,编码从三个到十个字符,长度有所不同。其中无一编码是图书馆里广为流传的十进制分类系统,因此他们不能表示复杂的层级结构或多维面系统。这些编码比较简单,不需要机器处理的特殊程序。各编码的助记性能不同,并且仅在一种特定语言中有效(Lenoch系统通常就是这样)。
3.2 结构
这些经过审查的分类的宏观单元,已按有关术语数据库的特有目的而编制得出。然而其微观单元则是由条目的数量来确定,即取决于术语数据库的规模。在一个特定标题下所存入的概念越多,术语库的结构就要越细。有些术语库的结构或多或少是层级式结构(如:TERMIUM,TEAM),而另一些术语库则是详表式结构(如:EURODICA-UTOM)。
3.3 兼容性
兼容性的实际情况,取决于各数据库所选择包含的学科领域。
就TEAM与ASITO而言,其重点放在技术领域,而由于历史原因,EURODICA-UTOM则向着矿产业和铸造业方面大力地发展。再有当设交换任何数据之前,还需要考虑到某些语言的可用性。例如加拿大术语库除了英、法语之外,其它语言的条目是很少的。因此,在一个术语库中,允许存在几种分类方案有时是必要的。
4.对一个可能的共用分类法的思考
所有术语数据库方案的制定都必须遵循学科分类法,这已成为所谓“术语库工作组”的工作目标,在1978年1月至1979年5月之间,这个工作组召开了七次会议,并根据他们的工作,发表了最终的报告〔7〕。按照这个工作组的推荐,一个共用的分类法的优点可以表述如下:
(1)统一的分类法会使数据库之间能够直接交换采集的数据,从而防止损失任何信息。
(2)在一些特殊学科领域可实现合办字典计划,而无需转化程序。
(3)在分担共同计划费用的条件下,可完成术语库存储的更为详细的结构。
另一方面,对严格的“通用分类法”的缺点也应提出。在编制这个系统的过程中可能出现的困难,在A.博思(A.Bothe)的文章“术语存储的分类体系”(La classifi-cation systématigue des stocks terminologiques)中做了报道〔8〕
在知识工程与智能用户接口领域的新发展,也将是新术语数据库的制造者所感兴趣的。总之,由于用户可能由一个术语或由概念领域不十分明确的思路出发去寻找信息,所以应有多种获得术语文件的方法。该系统需为两种处理方式提供条件:非层级结构分类和主题词表的描述符。正象H.萨姆罗维兹(H.Samu1owitz)所阐述的那样:“它象是波在运动:当排好基本物理单元,分类达到全盛期之后,随之而来的是自然语言系统的高峰,这是当认为必须按逻辑单元排序,并因此推出了主题词表系统的时期。现在这种局面被两者的混合系统所代替”〔9〕
这种新运动的一个例子是BSI的ROOT一主题词表〔10〕,它把两种系统的优点结合起来,即:具有存取5,500条无描述符的自然语言的Btiss分类结构。
因为ROOT一主题词表可以用于各种语言的机读形式,它是一个普通适用的基础,即:做为术语数据库的学科分类法。BSI和ISONET中其它几个成员国采用了这一工具把标准分类(包括术语标准)。下一步应将包含在那些标准中的概念并入系统中,其中有些已被用作描述符。这个系统将能适合个别的请求和从各个方面扩展这个系统。在宣传资料中,ROOT一主题词表的可能产品中提及术语数据库,是不足为奇的。
ROOT产品需要的全部信息,是在计算机主文件上获取的,它是象主题显示一样用同一排序来显示记录次序的。附属于每一描述符的是一些附加数据元素,但尚未印出。这些包括管理信息(描述符和综合条目的参考号,层级编码和数据项的编码),表示术语来源的编码,以及关于定义可用性的编码。
计划建立包含全部描述符定义的第二级文件,设想输出的主要形式是一套卡片,一个描述符一个卡片,并带有它的定义和相关术语。对ROOT一主题词表和系统的发展来讲,大概最雄心勃勃的开拓工作是:术语数据库包括英文术语,上下文细节,法文(和可能的其它语言)对应词和定义。
*原文为一个到四个数字,可实为四位数字——译者注