中国科技术语

• 术语学研究 • 上一篇    下一篇

汉语词组型术语的结构

冯志伟*   

  1. 教育部语言文字应用研究所
  • 出版日期:2004-06-15 发布日期:2004-06-15

Structure of Chinese Phrase Term

Feng Zhiwei   

  • Online:2004-06-15 Published:2004-06-15

摘要: 我们在《汉语单词型术语的结构》(见本刊2004年第1期)一文中讨论的内容仅仅限于汉语中的单词型术语。然而,在一个术语系统中,绝大多数的术语都是词组型术语。我1986年在德国夫琅禾费研究院研制的“英汉数据处理术语数据库”GLOT-C中,词组型术语的比例占了75.17%。在其他的术语数据库中,也有同样的情况。为什么词组型术语会成为术语系统中全部术语的大多数呢?这是由“术语形成的经济律”造成的。因为每当出现新的概念的时候,人们往往不是重新造一个新的单词型术语来表示它,而是把原有的单词型术语结合起来,构成词组型术语来表示它。这样,虽然新的概念源源不断地出现,但是,术语系统可以在保持原来的单词型术语的数量基本不变的前提下,把原有的单词型术语结合起来表达新的概念,从而保证术语系统的经济性,这就使得在一个术语系统中,词组型术语的数量占压倒的优势。
正因为词组型术语占术语系统的大多数,在我们研究汉语单词型的结构的同时,还有必要研究汉语词组型术语的结构。
1.词组型术语的构成方式
汉语的词组型术语是由汉语的词组构成,因此,我们首先要研究汉语中词组的构成规律。了解了汉语词组的结构,也就可以了解词组型术语的结构。
词组是由词和词组合而成的。
汉语词组的构成方式主要有以下6种,它们同时也就是汉语词组型术语的构成方式,下面的例子主要是关于数据处理的词组型术语:
①联合结构:词组中的两个词是并列的,形成一种并列关系。例如,
字母/数字,输出/输入。
②偏正结构:词组中的两个词,前一个是修饰语,后一个是中心语,形成一种偏正关系。例如,
数据/媒体,一元/算子,对称/误差,多重/穿孔,实时/运算。
③述宾结构:词组中的两个词,前一个是述语,后一个是宾语,形成一种述语对宾语的支配关系。例如,
编制/程序,转移/指令,改变/转储,控制/操作,归并/排序。
④述补结构:词组中的两个词,前一个是述语,后一个是补语,形成一种补充关系。例如,
解释/清楚,读/出。
述补结构的术语很少。
⑤主谓结构:词组中的两个词,前一个是主语,后一个是谓语,形成一种陈述关系。例如,
程序/检测,标记/读出,系统/测试,数据/处理,存储/分配。
⑥重叠结构:词组中的两个词,后一个词是前一个词的重叠,形成一种重叠关系。例如,
研究/研究,调试/调试,试验/试验。
音译式和音译意译式的术语几乎都是单词型术语,很少有词组型的术语,这里不再讨论。
2.汉语中语素、词和词组的界线
黏附语素不能独立使用,不是词,自由语素可以独立使用,所以,自由语素同时又是单纯词。从语素的角度看,它是自由语素,从词的角度看,它是单纯词。观察的角度不一样,名称不同,实质则是一样的。
在语素与词这两个集合之间,有一个交集 (intersection),这个交集就是自由语素,如果从词的角度看,它们又可以叫做单纯词。

由此可见,语素和词之间的界限基本上是可以区分清楚的,黏附语素绝不可能是词,合成词也不可能是单个的语素,语素和词之间的交集,从语素的角度看是自由语素,从词的角度看是单纯词。
然而,合成词和词组之间的界限就不是那么容易区分清楚了。
从前面所举的例子可以看出,合成词的构成方式与词组的构成方式有许多一致的地方。可列表比较如下:

合成词的构成方式与词组的构成方式的这种一致性,使得汉语的语法规则易学易记,对汉语的学习是有好处的,可是,这种一致性也往往导致合成词与词组的界限不甚分明,使我们难于判断一个结构究竟是合成词还是词组。
如果一个结构由两个黏附语素构成,必定是合成词,不可能是词组。例如,“劳”是黏附语素,“损” 也是黏附语素,它们结合而成的“劳损” 必是合成词,不可能是词组。
如果一个结构由一个黏附语素和一个自由语素构成,必定是合成词,不可能是词组。例如,“劳” 是黏附语素,“动” 是自由语素,他们结合而成的“劳动”必定是合成词,不可能是词组。
含有前缀的“老师”,“老虎” 等结构,也必定是合成词,不可能是词组,因为前缀是黏附语素。
含有后缀的结构“桌子”,“作者”,“忽然”,也必定是合成词,不可能是词组,因为后缀是黏附语素。
但是,如果一个结构由两个自由语素组成,问题就比较复杂。
如果组成结构的两个自由语素都是双音节语素或多音节语素,那么,它们必定是词组,不是合成词。例如,“模糊” 是双音节自由语素,“逻辑” 也是双音节自由语素,由它们构成的“模糊逻辑” 必定是词组,不是合成词。
如果组成结构的两个自由语素,一个是双音节语素,一个是单音节语素,那么,就不容易判定这个结构是合成词还是词组。例如,“机器” 是双音节自由语素,“人” 是单音节自由语素,由它们结合而成的“机器人” ,有人认为应该是合成词,因为它表示一个整体概念。但是,“调” 是单音节自由语素,“程序” 是双音节自由语素,由它们构成的“调程序” 却很难认为是一个合成词,有许多人认为它是一个述宾结构的词组。
可见,当构成结构的两个自由语素中,有一个单音节语素,就可能使合成词和词组的界限变得模糊起来,难于判定。
如果构成结构的两个自由语素都是单音节语素,那么,合成词和词组的界限就更加模糊,更加难于判定。例如,当单音节自由语素“大” 与另外的单音节自由语素“会,军,陆,脑,好,红”组成“大会,大军,大陆,大脑”时,有人会认为前后语素之间结合得很紧密,应该是合成词。但是,当“大”与另外的单音节自由语素 “鱼,河,船” 组成“大鱼,大河,大船”时,可能就会有人觉得前后语素之间结合得不很紧密,它们不太像合成词,而似乎应该是词组了。
又如,表示陈述关系的结构“洗澡,鞠躬,游泳,理发”,看来似乎是合成词。可是,有时,其中的语素可以分离开来:
洗澡——洗了一次澡
鞠躬——鞠了一个躬
游泳——游了一次泳
理发——理了一次发
这时,它们似乎又不像是合成词。究竟是合成词还是词组,难于判定。
我们可以把语素、词和词组的区别进行比较:

从这个表中可以看出:
①任何一个结构单元,可以根据“是否有意义”,“是否为最小单位”,“能否独立运用”,“包含语素数”,“包含单词数”等 5 个性质来鉴别。这5个性质之间的关系是逻辑上的合取关系 (∧),也就是说,每一个结构单元,要同时根据这5个性质来鉴别,如果仅仅根据其中的某一个性质或者某几个性质,是不可能鉴别清楚的。
②自由语素与单纯词的性质完全一样,它们在实质上是一个东西。
③合成词与词组的前面4个性质都相同,只有最后一个性质(即“包含单词数”)不同,合成词只包含一个单词,而词组则包含两个或两个以上的单词;可是,由于自由语素同时又可以看成单纯词,因此,当合成词由两个自由语素组成时,也可以把它看成是由两个单纯词组成的,这样,合成词就变成词组了。
可见,从理论上说,合成词与词组的分界问题并没有解决,因此,单词型术语中的合成词与词组型术语的分界问题也没有解决。这种理论上的缺陷,必然会在汉语术语数据库的开发的实践中,引起种种的矛盾和困难。特别是当我们用计算机自动处理术语数据的时候,常常使我们处于进退维谷的境地。由于科技发展日新月异,科技术语的数量与日俱增,如何从真实的科学技术文献中自动地抽取术语,成为一个重要而迫切的问题。而要从真实文本中自动抽取术语,就必须对科学技术文献的文本进行自动切分,找出词与词之间的界限,这样的技术,叫做汉语文本的自动切分(automatic segmentation)。显而易见,在汉语文本的自动切分中,必须首先鉴别文本中的合成词与词组,词组需要切分,而合成词则不需要切分。合成词与词组的分界问题解决不好,将会给文本的自动切分带来巨大的困难。我们在术语的研究中,应该注意这个问题,研究出切实可行的解决办法。这是现代术语学研究的一个难点。
3.多个单词组成的词组型术语
上面列举的词组型术语只包含两个单词,还有包含两个以上单词的词组型术语,这些词组型术语的结构就复杂得多了。
有的词组型术语是由3个单词构成的。例如,“控制/转移/指令”,“字母/编码/字符集”,“大/容量/存储器”,“面向/对象/语言”,“自动/数据/处理”,“直接/插入/子程序”,“抽点/打印/程序”。“多数/决定/运算”,“条件/隐含/运算”,“二进制/布尔/运算”。
有的词组型术语是由4个单词构成的。例如,“字母/数字/字符/子集”,“字母/数字/编码/字符集”,“连续/顺序/计算/装置”,“组/传输/结束/字符”,“二五/混合/进制/码”,“基数/减/一/补码”,“每位/一/芯/存储器”,“自动/送/卡/穿孔机”。
此外还有由更多的单词构成的词组型术语,就不再一一列举了。
这样复杂的词组型术语需要采用现代语言学的原理和方法来进行分析,把它们的结构表示为树形图(tree graph),从而揭示其中隐含的句法关系和语义关系,使我们对于它们的结构获得比较清楚的认识。
目前,采用自然语言处理技术,在大规模的真实语料库中自动地提取术语(包括单词型术语和词组型术语),并进一步提取在术语中蕴藏着的语言知识和科学知识,已经成为自动知识挖掘(automatic knowledge mining)和自动知识获取(automatic knowledge extract)的一个非常重要的研究领域。在这样的研究中,如何自动地分析词组型术语的结构,如何辨别词组型术语的几何歧义,是正确地进行知识获取的重要手段。我们希望我国的术语学研究能够关心这些问题,把术语学研究与自然语言处理技术结合起来。
注释: *冯志伟教授是全国科学技术名词审定委员会委员。