龚益
Gong Yi
摘要: 术语是学问的细胞。规范术语是繁荣学术的重要内容,也是开展学科建设的重要手段。随着经济计量学的发展,相关学术译著大量涌现。指称同一客体的译名或术语之不同于是发生,例如cointegration的翻译,就有协整、同积、协积、共积、积整等数种之多。在经济计量学的概念中,协整性反映数个随机变量线性组合之后的非平稳程度之变动性质。作为经济学特别是经济计量学的术语,这种一词数译的情况不利于学术交流和学科发展。
随着经济计量学的发展,相关学术译著大量涌现。指称同一客体的英文译名或术语之不同于是发生。例如cointegration,有人译作协整[1],有人译作同积[2],亦有人将其译作协积[3],共积[4],积整[5]。在经济计量学的概念中,协整性反映数个随机变量线性组合之后的非平稳程度之变动性质。数种译法,意思一样,只是称谓不同。但是,作为经济学特别是经济计量学的术语,这种一词多译的情况可能不利于学术交流和学科之发展。我以为将cointegration译作协整为好,本文阐述其理由。
一、时间序列数据的异方差性和协整性
瑞典皇家科学院,将2003年诺贝尔经济学奖授予美国经济学家罗伯特·恩格尔(Engle)和英国经济学家克莱夫·格兰杰(Granger),以表彰他们开拓新方法用于分析时间序列数据,从而对经济学研究和经济发展带来巨大影响的贡献。
据中国中央电视台2003年10月9日报道,诺贝尔经济学奖评审委员会负责人托尔斯腾·佩尔松介绍获奖情况说,研究人员在进行估量关系、作出预测以及检验经济学理论中的假设时,往往以时间序列数据为基础进行各种分析。在大量的时间序列数据中,可以观察到诸如国内生产总值、价格、利率、股票价格等经济数据在时间轨迹上的演变。在20世纪80年代,两位获奖者发明了新的统计方法来处理许多经济时间序列中的两个关键属性:时间序列数据的异方差性和非平稳性。
恩格尔1942年生于美国纽约的锡拉丘兹,1969年获美国康奈尔大学博士学位,现为美国纽约大学金融服务管理学教授。20世纪80年代,恩格尔创立了自回归条件异方差性(Autoregressive conditional heteroscedasticity,ARCH)模型。ARCH的主要思想是时刻t的u的方差依赖于时刻(t-1)的平方误差的大小。按照惯常的概念,自相关问题是时间序列数据所特有,异方差性则是横截面数据的特点。恩格尔另辟蹊径,所以瑞典皇家科学院评价他的分析方式对经济学研究具有“重大的突破性意义”。现在ARCH理论模式已经成为经济研究以及金融市场分析人士用来评估价格和风险的必备工具。
格兰杰1934年生于英国威尔士的斯旺西,英国公民。格兰杰1959年获英国诺丁汉大学博士学位,现为美国加利福尼亚大学圣迭戈分校荣誉教授。格兰杰在经济学研究方面作出的杰出贡献在于发现非平稳时间序列的特别组合可以呈现同平稳性,从而可以得出正确的统计推理。格兰杰据此提出了根据共同趋势进行经济时间序列分析的方式。瑞典皇家科学院称格兰杰的发现对研究财富与消费、汇率与价格,以及短期利率与长期利率之间的关系具有非常重要意义。
大部分总量型的经济时间序列数据都存在有随机分量和趋势分量,一次暂时的失调会产生长期持续的影响。这些时间序列数据是“非平稳的”。格兰杰证明,如果把用于处理稳定时间序列数据的统计方法运用于非稳定的数据分析时,很容易得出完全错误的结果。他的重大发现是,把两个以上非稳定的时间序列进行特殊组合后可能呈现平稳性。格兰杰把这种现象叫做“协整”。这一概念在对诸如储蓄和消费的关系、汇率和物价的关系以及短期和长期利率的关系等经济学领域的研究中具有重大意义。
二、单整(integratedness),单整性[1]
单整,或单整性,是指称单一随机过程非平稳程度的术语。
随机变量的分布函数对保证经济计量模型与统计学机制的一致性起着关键作用。在一定的分布形式下,分布函数与参数值共同确定分布曲线的准确形状与位置。当分布形式为未知时,模型建造者需要预先对变量的分布形式作出假设,然后通过检验来验证假设。经济计量学家发现,即使原变量序列不服从正态分布,经差分之后也会趋于正态分布。一般认为,时间序列的差分实质上是剔除时序当中某种固有的规律性,因此经过数次差分后的数列中只剩下具备随机性的独立误差信息,自然趋向于正态分布。这与我们通常假设衍生的误差服从正态分布是一样的道理。单整序列数据中的趋势分量具有与其阶次相应的差分性质,而n阶等差数列的隐蔽公差或广义公差与其对应一阶等差数列的公差之间存在有确定性的公式。
为了更好地理解作为经济计量学术语的“单整”概念,需要了解关于单整过程的定义。
设有模型如
yt=yt-1+a+εt (1)
△yt=a+εt (2)
如果,则(1)式与模型(2)同形。此时若yt不呈正态分布,则其原因必由之外而来。差分项△yt表示时间序列当期与上期数据的偏差,由(2)式知它应呈正态分布。若对(1)式递推至初始期,可知yt是累计误差(∑ε1)与趋势(at)之和,因此其非正态性必来源于趋势项。有:
定义随机过程{yt},若其分布函数具有时不变性,即在某一时段的联合分布函数不随时段变换而改变的过程为严格平稳过程。
由(1.1)式可知,yt不是平稳过程,但其一次差分△yt,即式(2),却是平稳过程。两式之间的差异仅在于(1.1)式中的白噪声误差之和项。由于该项类似于连续函数中的一重积分,我们便称形如(1)式中的{yt}过程为一阶单整过程,记作I(1);并称{△yt}过程为0阶单整过程,记作I(0)。平稳过程是0阶单整,即I(0)过程。
一般地,若一随机过程(yt)为I(n),即n阶单整过程,其一次差分{△yt}就是I(n-1)过程,其二次差分{△2yt}就是I(n-2)过程。而其n次差分{△nyt}就是I(0)过程。观察数据图形,I(0)过程通常振荡无常状,I(1)过程比较平坦略有波动,I(2)过程通常呈现一定的趋势状态。在实践中通常很难确定数据序列单整阶数,只能根据数间序列的样本信息用较为接近的I(n)过程来近似描述它们。
三、高阶等差数列具有可确定的隐蔽公差
如前所述,大量时间序列中包含有趋势分量,借助差分过程可以将其去除,以突出数据序列当中的随机成分。典型的趋势量具有初等数学中等差数列的特征。为便于讨论,我们回顾关于等差数列和算术级数的概念。
所谓等差数列,是一组数据按照一定(等差)规律依次排列的形式。这种形式类似于数学定义的等差级数,亦即算术级数,但是数列与级数二者所关心的具体侧面有所不同。数学定义的等差级数系指一和[6],即数列当中所有相关数项的加总值,而关于等差数列的研究则关注数列各元素之间的关系,以及不同阶次数列间数据投影、变换的内在联系。在一般意义上,数列研究的对象是确切肯定的数量关系,而不考虑随机变量的影响。经济计量学研究涉及的数据序列则表现为常规等差数列与随机变量的叠加,甚至等差数列的公差也可能存在随机扰动。这些扰动的存在,使得经济研究当中涉及的时间序列数据表现出更为隐蔽、复杂的数列形式。
从1到100的自然数的和是最常见的1阶算术级数,其首项a=1,末项z=100,公差d=1,这个算术级数的值S=1+2+…+100=5050。显然,由自然数可以构成一个公差为d+1的等差数列。确定不同的非0公差d,可以构成不同的等差数列。
相对应的,可以由所有自然数的平方构成另一数列,即1,4,9,16,25,36,49,…,我们称其为2阶等差数列。同理,全部自然数的立方构成另一高阶等差数列,即1,8,27,64,125,216,343,…,我们称其为3阶等差数列。余此类推。等差数列的元素中可以含有截距因素。为简化起见,在本文的讨论中假定各数列元素的截距为0。
记一阶等差数列为{A1(d)},d>0,其中包含数列元素ai,i=1,2,3,…,I。记2阶等差数列为{A2(D)},D>0,其中包含数列元素,…,I。记3阶等差数列为{A3(D)},D>0,其中包含数列元素ai3,i=1,2,3,…,I。一般地,记n阶等差数列为{An(D)},D>0,其中包含数列元素ain,i=1,2,3,…,I。在这些记述中,D均为隐蔽公差,或称广义公差,需要通过对数列内各相邻元素进行n次差分后得到。在n次以上的差分过程中,各次运算所得之差均为0。高阶等差数列(或称n阶等差数列)是等差数列的普遍形式,而一阶等差数列可以看作是n阶等差数列的基础和特例。一阶等差数列具有表现为常数的公差,通常记作d。但是n阶等差数列各相邻项的差数乍看起来并不相等,只在第n次差分(后项减去前项)时才是常数,第n次以上差分的结果皆为0。定义这个常数为n阶等差数列的公差,记作D。由于n阶等差数列的公差D不能从原数列中直接观察得出,故可称其为隐蔽公差或广义公差。高阶等差数列之“等差”即源于此。值得注意的是,高阶等差数列的公差虽然“隐蔽”却是“确定的”。而经济数据序列当中的各项参数通常含有随机变量的作用,具有某种程度的不确定性。在研究经济数据的过程中必须考虑随机变量的问题。这意味着如果存在随机因素的作用,则序列数据在若干次差分后的结果可以表现为毫无趋势可言的随机振荡。换言之,差分过程消除的只是数据序列当中的“趋势”成分[7]。
注意到前述单整过程与数学中等差数列的关系。对n阶等差数列进行差分,其过程产生的结果即为n-1阶数列。显然,对单整过程的时序数据,可以理解为加入了随机误差项的等差数列,单整之阶次与等差数列的阶次可以对照呼应。按等差数列的定义,如果数列从第二项开始,每一项与前一项的差为常数d,称为“等差数列”,d称为“公差”。公差d大于0的等差数列称为一阶等差数列。记作{A1(d)}。当公差d=0时,{A1(d)}退化成为{A1(0)},数列内所有元素相等。显然,如果考虑对应于数列{A1(0)}当中的每一元素ai=a分别加上随机误差项εt,则数列可表为截距水平在a的随机过程。这是一个I(0)过程。
对于{A1(d)},d>0,若取数列当中各元素ai(ai=ai-1+d)之平方构成另一数列,即可得到一个2阶等差数列。记作{A2(D)}。陈列{A2(D)}可知,直观上这个数列已经不再是等差数列。即ai-ai-1≠ai+1-ai。但是,对{A2(D)}进行一次差分得到的新数列{A2-1(D)},则是公差为D的一阶等差数列。研究表明,n阶等差数列的广义公差D是相对应一阶等差数列公差d和数列阶次n的函数,即D=f(d,n),此时满足关系。其中:D为n阶等差数列的公差(广义公差);d是与该n阶等差数列相对应的一阶等差数列的公差。即n阶等差数列的广义公差或隐蔽公差D,等于相对应的一阶等差数列公差d的n次方再乘以n的阶乘[8]。按照这个公式可以求出,对应于自然数列(公差d=1)的2阶等差数列和3阶等差数列的公差D分别是D=122!=2和D=133!=6。
虽然通过上述方法,对相应一阶等差数列内元素进行n次方运算得到的n阶等差数列只是n阶等差数列的特例,但是从中可以观察到相应一阶等差数列的公差d,与对应n阶等差数列公差D之间的变换关系。换句话说,我们可以了解所谓高阶等差数列,即阶次n>1的数列,在直观上并非等差。在高阶情况下,数列之等差是隐蔽行为。阶次越高,等差之差隐蔽越深。
四、结论
由此我们可以认为,所谓n阶单整过程,在本质上是一个n阶等差数列与随机过程组合的共同结果。差分运算在获得I(0)结果的同时,消除I(n)序列数据当中包含的n阶等差因素,即趋势因素。对于一个n阶单整序列来说,究竟要经过几次差分运算才能实现I(0),取决于序列当中所隐蔽包含的等差数列的阶次。而所谓“协整”,应是相对于“单整”而言。协整的意义,恰恰是通过两个(或两个以上)非平稳数据序列的组合而使不同数据序列当中各自存在的趋势分量相互抵消,从而形成综合的、平稳的描述关系。从某种意义上,可以说“协整”是一种更广泛的“单整”数据序列处理过程。单整与协整两个相关的术语可以较好地对应、亦便于理解。因此,在经济计量学领域,将cointegration译作协整为好。当然,从开展社会科学术语规范工作的角度考虑,本文的出发点更在于抛砖引玉,希望关心社科术语和经济科学学科建设的行内专家发表自己的专业见解。
五、批评
在以本文初稿征求意见的过程中,得到了中国社会科学院数量经济研究所徐嵩龄研究员的关注。他的意见如下:
关于“cointegration”的翻译(徐嵩龄)*
“cointegration”的翻译取决于对“integration”的翻译,而“integration”的翻译又取决于对“integrated”的理解。在计量经济学文献中,“be integrated”意指“被积而成”,即I(1)是I(0)的一阶积分,余类推。因此,“integration”应理解为“积分”。
将“integratedness”译为“单整”,看来是将“integration”理解为“整合”。这也是可以的,但不如“积分”准确。然而,将“integratedness”译为“单整”欠妥。“integratedness”中没有“单”的含义。不能因为要与“cointegration”比较而加上“单”。正如没有必要将“variance”译为“单方差”,以区别于“协方差”(covariance)一样。
现在再谈“cointegration”。经济计量学教科书有关于它的解释。最简单的表达是:可以表为线性关系的两个序列,如果同为I(1),它们可视为“be cointegrated”,即“协同可积”。这也许就是林少宫先生将“cointegration”翻译为“协积”的原因。
您可以将“integration”与“cointegration”分别译为“整合”与“协整”,这样做或许较为通顺。但应作一番解释,使这一译法建立在准确理解的基础上。
“integratedness”这一单词可译为“可积性”或“可整合性”。
*徐嵩龄先生为中国社会科学院数量经济与技术经济研究所研究员。