冯志伟
Feng Zhiwei
摘要: 我于1991年11月14日到达维也纳,作为中国代表于11月15-16日参加了ISO/TC37组织的TEL会议,又于11月18-19日参加了ISO/TC37/SC3的第8次会议。现将两个会议情况向国内同行汇报如下。
一、TEI会议
TEI是Text Encoding Initiative的英文缩写,其含义是“文本编码初始化”。
ISO/TC37/SC3自从成立以来,一直致力于建立不同的术语数据库之间进行数据交换的标准化工作。近年来,世界上已出现了两个引人嘱目的标准格式:一个是Micro MATEM(简称MM),一个是北欧术语记录格式(Nordic Terminological Record Format,简称NTRF)。MM是由美国犹他州杨伯翰大学机器翻译研究组、美国翻译家协会、美国肯特州立大学应用语言学研究所联合研制,由国际术语信息中心(INFOTERM)参与咨询的一个术语交换的标准格式。这种MM格式近5年来已成功地被应用于不同术语数据库之间以及术语数据库和其它类型的数据流(如词处理系统)之间的术语数据交换。NTRF是北欧斯堪的纳维亚国家(芬兰、挪威、瑞典)用来进行术语数据库术语文件交换的一种标记语言(markup language),这种NTRF成功地把北欧国家的术语数据库融为一炉,从而编制了一部内容相当丰富的北欧术语词典。
MM和NTRF的共同之处在于它们都使用了“标准广义标记语言”(the Standard Generalized Markup Language,简称SGML)。NTRF完全是按照SGML的形式制定的,MM在编写时使用了SGML的许多规定,并且可以很容易地转换为SGML。SGML这种标准广义标记语言在ISO 8879这一国际标准中被定义为:“一种用于表示文献的语言,这种语言可以将标记形式化,并且使标记独立于系统及其它处理附属设备之外”。
MM与NTRF不论在结构上还是在内容上都十分相似。问题在于,能否在这两个系统之间找到一个共同的基础,以便创建出一种通用的交换格式,这是需要作很多努力才能做到的。
与此同时,许多术语机构及标准化团体也在探索第三种解决办法,他们力图在SGML的基础上,研制一种通用的交换格式,这就是“文本编码初始化”(TEI)。
TEI是1987年提出的。根据SGML的指导思想,TEI的目的在于:
——支持数据交换
——支持独立于应用的局部性处理
——为数据库的管理和研究进行情报检索
在1991年3月底召开的TEI咨询会议上,建立了术语数据工作组——“分析与解释7”(Analysis and Interpretation 7,简称AI7),AI7的任务是:
——列出用于文献工作的标记,提出一个标记表
——描述它们之间的结构关系
事实上,AI7正在研制标记表、属性和属性值表,并为TEI文献类型定义(Document Type Definition,简称DTD)写一个术语成分清单。DTD要求描述在交换的环境下数据范畴的交互情况,它就是指定的某类文献的标记规则。
TEI要求提高在术语交换介质以及包含在TEITDT之内的有关文献类型之间进行动态交互的潜力。这些文献类型有:
——词典数据库
——文本库
——类属词典和文献数据库
——图书目录数据库
AI7正致力于建立与sGML相适应的交换格式以便进行数据的交换。
在这样的背景之下,本次TEI会议由美国肯特州立大学应用语言学研究所的Sue Ellen Wright女士介绍了TEI AI7工作组的工作情况,她在会上详细地描述了TEI-TERM术语项的基本结构以及对DTD的新设想,并且在计算机上演示了MMUTS及NORM的3个文件A、B、C的结构。文件A是由MM文件直接生成的一个平面文件,文件B是由平面文件生成的一个标准化的多层次文件,文件C是同MM文件直接生成的标准化的多层次文件。
11月15-16日这两天的TEI会议开得十分紧张。由于我国代表过去从未参加过TEI的任何工作,会议开始时对于他们使用的许多新术语及缩写词的含义不甚了解,虽然懂英文但很难领会他们发言的要点,在这种情况下,我国代表抓紧第一天会间及午休时间,找国外有关代表个别了解TEI的背景,这样,参加第一天下午(11月15日)和第二天(11月16日)的会议才不再感到困难。
二、ISO/TC37/SC3第8次会议
在11月18日上午的会上,首先由SC3秘书处对SC3第7次会议以来的工作进行了回顾和总结,汇报了SC3的几个工作项目,并说明了SC3成员国的变动情况:罗马尼亚于1991年5月23日申请成为O-成员国,日本于1991年7月23日申请成为O-成员国,现在SC3共有P-成员国11个,O-成员国6个(其中包括中国)。接着,秘书处对ISO 6156《术语和词汇记录的磁带交换格式》(Magnetic Tape Exchange Format for Terminilogical/Lexicographical Records,简称MATER)和WI 15《数据范畴/数据元》(Data categories/data elements)这两项工作的组织和协调情况作了说明。
11月18日下午的会上讨论了3个问题:
(1)WI 15《数据范畴和数据元》
(2)ISO 6156《术语和词汇记录的磁带交换格式》(即MATER)的修改
(3)sC3今后的工作
11月19日的会上讨论由德国标准局DIN提出的《计算机辅助术语工作——词汇》(Computationa1 Aids in Terminology-Vocabulary)。该文件将作为ISO1087-2的第3工作文件。
11月19日下午通过了SC3第8次会议的决议。内容如下:
A根据1991年10月11日ISO/TC37全会的建议,修改了SC3的工作范围,第8次会议决定sC3的工作范围是:对应用于术语工作和术语编纂的信息处理模型和有关的代码系统进行标准化。
B.出席第8次会议的代表赞同与“文本编码初始化——分析和解释工作组”(即TEI/AI7)建立外部联系。
C.ISO/TC37/SC3在SC3的范围内建立“数据元工作组”(WG1),美国Wright女士为召集人。
D.ISO/TC37/SC3在SC3范围内建立“SGML术语应用工作组”(WG3),奥地利Budin先生为召集人。
E ISO/TC37/SC3在SC3范围内建立“词汇工作组”(WG2),德国Schuck先生为召集人。
F.出席第8次会议的代表赞同在ISO/IEC JTC1/SG18/WG8“文本描述和处理语言”与TC37/SC3/WG3之间建立内部联系。
G.出席第8次会议的代表赞同在1992年投票通过ISO 6156“术语/词汇记录的磁带交换格式”(MATER)。
H.ISO/TC37/SC3支持1991年10月3日在加拿大魁北克的ISO/TC37/SC1会议上通过的建议,把由SC3准备的“计算机支持术语工作——词汇”的文件编号定为“ISO 1087第2部分”,这样将有助于协调有关的术语工作。该文件修改的最新结果希望能在1992年8月召开的SC3第9次会议上进行交流。
I.ISO/TC37/SC3支持中国代表提出新的工作项目建议(New Work Item Proposal,简称NP)——术语数据库的要求”(Requirement for Terminological Databases),这个问题将在SC3第9次会议上进行讨论。
我作为中国代表参加这次会议,增长了不少见识。我深深感到,由于这项工作在国外进展很快,我们有必要尽快地熟悉其新思想、新概念、新动向、新方法,并为参加1992年8月的第9次会议作好充分的准备。