中国科技术语

• 论文 •    下一篇

术语形成的经济律——FEL公式

冯志伟   

  1. 国家语言文字工作委员会
  • 出版日期:1989-06-15 发布日期:1989-06-15

The Economic law of the Formation of Terms——FEL Formula

Feng Zhiwei   

  • Online:1989-06-15 Published:1989-06-15

摘要: 我国许多学者喜欢把术语叫做“名词”。这种叫法是极不确切的。事实上,相当数量的术语并不是名词,而是由名词或其它单词构成的词组。现代科学技术日新月异地发展,新的科学概念层出不穷,人们不可能给每一个新出现的概念都用一个新的单词来命名它,在大多数情况下,是采用原有的单词构成词组来表示新的概念,这样,就会形成许多以词组为形式的术语,它们叫做词组型术语。从目前发展的趋势来看,词组型术语越来越多,在整个术语系统中占了很大的一部分。这几乎成了现代术语发展的一个规律。
我在1986-1988年间,受中国科学院和中国社会科学院的派遣,在联邦德国夫琅禾费研究院新信息技术与通讯系统研究部研究汉语的术语问题,使用VAX11/750计算机和UNIX操作系统以及INGRES关系数据库建立了中文术语数据库GLOT-C,该术语数据库收了国际标准ISO-2382从1975年以来的全部有关数据处理的术语,共计1510条。这些术语可以分为两类:一类是单词型术语,一类是词组型术语。
单词型术语是只由一个单词构成的术语。如名词术语、动词术语等等。在GLOT-C术语数据库中,单词型术语只有375条,其中包括:
名词术语:244条,如“数据”。
动词术语:53条,如“打印”。
名动同形词术语:75条,如“输入”。
名形同形词术语:2条,如“对称”。
名限同形词术语:1条(“限”指限定词),如“顺序”。
在GLOT-C术语数据库的375条单词型术语中,名词术语只有244条。
词组型术语是由单词组合而成的术语。如名词词组术语、动词词组术语等等。在GLOT-C术语数据库中,词组型术语有1135条,其中包括;
名词词组术语:838条,如“计算机/程序”。
动词词组术语:31条,如“改变/转储”。
形容词词组术语:27条,如“自动/的”。
名动同形词词组术语:239条,“信息/处理”。
词组型术语占了全部术语的75.17%,单词型术语占了全部术语的24.83%,而名词术语只占了全部术语的16.15%。可见,在整个术语系统中,名词术语并不占优势,把术语称为名词,显然是不恰当的。
如果我们从语言学的观点来看术语系统,那么,我们可以看出,单词只不过是术语的构成材料(它既是词组型术语的构成材料,也是单词型术语的构成材料),而术语(包括词组型术语和单词型术语)则是由这些构成材料形成的产品。因此,可以说,一切术语都是由单词构成的。在GLOT-C术语数据库中的1510条单词型术语和词组型术语,都是由858个不同的单词构成的。这858个单词,与1510条术语的数量比较起来,只是一个较少的数目。这种由少量的单词构成大量的术语的语言现象,反映了语言使用中的经济原则,我们把它叫做“术语形成的经济律”。
早在十九世纪初年,德国杰出的语言学家和人文学者洪堡德(Von Humboldt,1767-1835)就观察到“语言是有限手段的无限运用”。但是,由于当时尚未找到能够证实这种论断的技术工具和方法,这种论断只是停留在假设的阶段。今天,我们有了电子计算机这个有力的技术工具,通过科学实验和数学计算来检验这个大胆假设的时机已经成熟。“术语形成的经济律”正是“语言是有限手段的无限运用”这一假设的一个科学实例。术语系统中单词数目是有限的,而由单词构成的词组型术语和单词型术语的数目却是无限的。由少量的有限的单词构成大量的无限的术语,这正是“有限手段的无限运用”这一原理在术语学中的具体表现。可见,“术语形成的经济律”是一个有着深刻的语言学和哲学背景的普遍性规律。
在本文中,我们将讨论术语形成的经济律的三个基本概念:术语系统的经济指数、单词的术语构成频率和术语的平均长度。并且提出“FEL公式”来描述这三个基本概念之间的关系。
一、术语系统的经济指数
为了说明什么是术语系统的经济指数以及术语系统的经济规律,需要先定义如下的初始概念:
1、系统的术语数:在一个术语系统中,不同的术语的总数,也就是术语系统的容量。系统的术语数用T表示,它的单位是“条”。
2、单词的绝对频率:在术语系统中,某一单词的出现次数(或使用次数)。单词的绝对频率用α表示,它的单位是“次”。
3、不同单词数:具有同一频率的不同单词的数目。不同单词数用ν表示,它的单位是“词”。
4、不同单词总数:在术语系统中,具有不同绝对频率的不同单词的总数。不同单词总数用W表示,它的单位是“词”。
不同单词总数的计算公式是:
W=Σν
5、运行单词数:具有同一绝对频度的不同单词ν和它的绝对频度α的乘积。运行单词数用ρ表示,它的单位是“词次”。
运行单词数的计算公式是:
ρ=αν
6、运行单词总数:具有不同绝对频率的运行单词的总数。运行单词总数用R表示,它的单位是“词次”。
运行单词总数的计算公式是
R=Σραν
术语系统的经济指数就是系统的术语数T被不同单词总数W来除所得的商。术语系统的经济指数用E来表示,这样,我们有如下公式:
E=T/W……………………………………………………(1)
E的单位是“条/词”,读为“每词多少条”。
在大多数术语系统中,E>1;如果E≤1,则说明术语系统设计的经济效应不高。
例如,在术语系统GLOT-C中,T=1510,W=858,则该系统的经济指数E为:
E=T/W=1510/858=1.76
这说明,当术语系统有1510条术语时,每个单词平均可构成1.76条术语。可见,这个术语系统具有较高的经济效应,也就是说,在该系统中,每个单词构成的术语条数较多。
术语系统的经济指数的高低,受到系统中术语数的强烈影响。随着系统的术语数的增加,术语系统的经济指数也逐渐升高,在我们设计的“数据处理中文术语数据库”GLOT-C中,当系统的术语数为500条,不同单词数为342个词时,其经济指数为1.46;当系统的术语数增加到1000条,不同单词数增加到588个词时,其经济指数也增加到1.70;当系统的术语数进一步增加到1510条,不同单词数进一步增加到858个词时,其经济指数也进一步增加到1.76,如下表所示:

这种情况,可图示如下:

在一定的学科领域内,如果具有大量术语条目的术语系统具有较高的经济指数,那么,这个系统必定具有大量的由少数基本单词构成的词组型术语,而这些词组型术语构成了该术语系统的主要部分。
二、单词的术语构成频率
在术语系统中,每个单词的绝对频率并不是一样的。有的单词经常使用,叫做高频词,有的单词不常使用,叫做低频词。随着术语条目的增加,高频词的数目一般来说也相应地增加,而新词出现的可能性越来越小。这时,尽管术语的条数还继续增加,不同单词总数增加的速率却越来越小,而高频词则反复地出现。在术语数T与不同单词总数W之间,存在着如下的函数关系:
W=Φ(T)
这种函数关系可粗略地用下图表示:

术语系统的高频词越多,则由这些高频词构成的术语也越多,单词构成术语的这种能力,叫做单词的术语构成频率。
单词的术语构成频率就是在一个术语系统中运行单词的总数R被不同单词数W来除所得商。单词的术语构成频度用F表示。这样,我们有下面的公式:
F=R/W…………………………………………………(2)
F的单位是“次”。事实上,因为R的单位是“词次”,W的单位是“词”,所以F的单位就是“词次/词”,它恰恰等于“次”。
F的值不能小于1,即F≥1;对于同一个术语系统来说,单词的术语构成频率F不能小于术语系统的经济指数E,即E≤F,因为我们总是有T≤R。
在我们设计的“数据处理中文术语数据库”GLOT-C中,1510条术语的运行单词总数为3216个,而构成这1510条术语的不同单词总数为858个,即R=3216,W=858,这样,我们有:
F=R/W=3216/858=3.75
这说明,当GLOT-C系统的术语数为1510条时,其单词的术语构成频率为3.75,也就是说,平均每个单词可以出现3 75次。因此,这个值也可以代表这些单词构成术语的平均频率。
单词的术语构成频率也受到术语系统中术语数的影响。
在GLOT-C术语数据库中,当术语数为500条时(T=500),单词的频率表如下:


在这种情况下, W=Σ ν=342
并且 R=Σ ρ=987
因此 F=R/W=987/342=2.89
当系统中的术语数为1000条(T=1000)时,单词的频率表如下:

在这种情况下 W=Σ ν=588
并且 R=Σ ρ=2072
因此 F=R/W=2072/588=3.52
当系统的术语数为1510条(T=1510)时,单词的频率表如下:

在这种情况下, W=Σ ν=858
并且 R=Σ ρ=3216
因此 F=R/W=3216/858=3.75
我们可得到如下的表:

从表中可看出,随着系统中术语数的增加,单词的术语构成频率也相应地增加,图示如下:

在上图中,虚线表示系统的经济指数E的变化情况,实线表示单词的术语构成频率F的变化情况,如果术语数T相同,单词的术语构成频率F的值不小于系统的经济指数E的值,即F≥E。仅当术语数T=1,系统中只有一个单词时,F等于E,在其它场合,F永远大于E。
从上面三个频率表中还可看出,随着单词绝对频率α的增加,具有同一绝对频率的不同的单词的数目ν相应地减小,这种关系可用下图来描述;

这说明,在一个术语系统中,高频词只占了不同单词总数的一小部分,而它们却能构成大量的术语。例如,在“数据处理中文术语数据库GLOT-C中当术语数T为1510条时,绝对频率大于10的高频词只有62个,而它们的出现次数却是1342词次,由这些高频词构成的运行词总数占了全部的运行词总数的41 4%。术语系统中的高频词越多,则该系统中单词的术语构成频率也就越高。
三、术语的平均长度
包含在术语中的单词数,叫做术语的长度。在一个术语系统中,术语的最小长度为1单词型术语的长度永远等于1,每个单词型术语只能包含一个单词。例如,“程序”这个单词型术语的长度为1。词组型术语的长度永远大于1。例如,“程序/设计”这个词组型术语的长度为2,“数字/字符/子集”这个词组型术语的长度为3,“条件/控制/转移/指令”这个词组型术语的长度为4,“平均/无/故障/工作/时间”这个词组型术语的长度为5,……等等。从术语经济原则的观点看来,术语的长度太长,不便于使用和记忆,因而,我们有必要研究术语的长度问题。
从术语系统的整体来看,还应该研究术语的平均长度。在一个术语系统中,术语的平均长度就是运行单词总数R被术语数T来除所得的商。术语的平均长度用L表示。计算公式为:
L=R/T
L的单位是“词次/条”,读为“每条多少词次”。
L的值永远不小于1,即L≥1,在每一个术语都只由一个单词构成的术语系统中,L=1,在其它场合,L>1。
在我们设计的“数据处理中文术语数据库”GLOT-C中,R=3216,T=1510,所以,该系统的术语平均长度为:
L=R/T=3216/1510=2。130
这意味着,在GLOT-C中,当术语数等于1510条时,平均每条术语由2 130个单词构成,即每条术语中含有2.130词次。
随着术语系统中术语数的增加,术语的平均长度也有增加的趋势。在GLOT-C系统中,当术语数为500条时,术语的平均长度为1.974词次/条;当术语数为1000条时,术语得平均长度为2.072词次/条;当术语数为1510条时,术语的平均长度为2.130词次/条。当然,术语的平均长度不能太长,每个术语系统都能在其运行过程中,不断地把术语的平均长度调节到最佳值。在这个调节的过程中,某些太长的术语被淘汰了,某些较短的术语变长了,这样,术语的平均长度就可以保持相对的稳定。
四、术语构成的经济律——FEL公式
前面我们讨论了术语构成的三个主要概念:术语系统的经济指数E、单词的术语构成频率F和术语的平均长度L。现在我们进一步研究这三个概念之间的关系。仔细观察GLOT-C术语数据库的实验数据,我们可以发现:术语系统的经济指数E与术语的平均长度L的乘积与单词的术语构成频率之值是近似地相等的。
实验数据如下:

当T=500时,我们有E×L=2.88304,而这时F=2.89;当T=1000时,我们有E×L=3.52140,而这时F=3.52;当T=1510时,我们有E×L=3.74880,而这时F=3.75。可以看出,E×L之值与F之值几乎是相等的。
根据这些实验数据,我们可以在E、F和L之间建立如下的数学关系:

或者 E×L=F
F=EL
事实上,由于
E=T/W (1)
以及
F=R/ W (2)
(2)÷(1)得到
F/E=R/T (3)
根据术语平均长度的定义,我们有
L=R/T (4)
比较(3)与(4),可以得到:
F/E=L
因此,可有
F=EL
这就是上面的FEL公式。
由此,我们可以作出结论:在一个术语系统中,术语系统的经济指数E与术语的平均长度L的乘积恰恰等于单词的术语构成频率F之值。我们把这个规律,叫做“术语形成的经济律”。
从FEL公式,我们还可得到如下的推论:
1、在一个术语系统中,当术语的平均长度L一定时,单词的术语构成频率F与术语系统的经济指数E成正比。术语系统的经济指数越高,单词的术语构成频率也越高。这时,FEL公式变为:
F=k1E
k1是一个常数。
这说明,为了提高术语系统的经济指数,应该增加单词的术语构成频率,使得每个单词能构成更多的术语。
2、在一个术语系统中,当系统的经济指数E一定时,单词的术语构成频率F与术语的平均长度L成正比。术语的平均长度越长,单词的术语构成频率越高。这时,FEL公式变为:
F=k2L
k2是一个常数。
这说明,为了提高单词的术语构成频率,必须增加术语的平均长度,因为系统的经济指数是一定的,每个单词只能被包含到有限数目的术语之中,所以,只有增加术语的平均长度。
3、在一个术语系统中,当单词的术语构成频率F一定时,系统的经济指数E与术语的平均长度L成反比。系统的经济指数的增加将会引起术语平均长度的缩小,而系统的经济指数的减少将会引起术语平均长度的增长。这时,FEL公式变为:
EL=k3
k3是一个常数。
这说明,在不改变单词的术语构成频率的条件下,如果我们想提高术语系统的经济指数使得每个单词能够构成更多的术语,那么,我们只好从原有的术语中,抽出一些单词来构成新的术语,这样,术语的平均长度就缩短了。因为在这种情况下,运行单词总数是不变的,我们必须从原有的术语中,一般是从较长的术语中,抽出一部分单词来造成新的术语,而这将引起术语数目的增加。其结果,术语系统的某些术语中所包含的单词数可能会减少,而新术语的长度不可能太长,因而系统中术语的平均长度就缩短了。
由此可见,FEL公式反映了术语系统的经济指数、单词的术语构成频率以及术语的平均长度之间的相互依存和相互制约的关系,这个公式是支配着术语的形成和变化的一个经济规律。
从FEL公式,我们可得到:
E=F/L
由此我们可知,提高术语系统的经济指数的方法有两个:
1、在不改变单词的术语构成频率的条件下,缩短术语的平均长度;
2、在不改变术语的平均长度的条件下,提高单词的术语构成频率。
一般地说,在一个术语系统中,最好不要过大的改变术语的平均长度,术语的平均长度改变过大,往往会使术语系统改变到人们难以辨认的程度。由于这个原因,我们最好不要使用缩短术语平均长度的方法来提高术语系统的经济指数。看来,提高术语系统的经济指数的最好方法,还是在尽量不过大地改变术语的平均长度的前提下,增加单词的术语构成频率,这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。在我们设计的“数据处理中文术语数据库”GLOT-C中,词组型术语占了75.17%。这个事实,正是术港形成的经济律作用的结果。而术语形成的经济律又是洪堡德提出的“语言是有限手段的无限运用”这一普遍假设在现代术语学中的实际体现和科学证明。