作者简介: 郑建清(1985-),男,福建莆田人,硕士研究生,主治医师,以胃肠道、妇科恶性肿瘤综合治疗与循证医学为主要研究方向。
目的 介绍利用线性模型的置换检验实现小样本研究的Meta分析方法。方法 通过Fleiss93cont实例介绍美国南佛罗里达大学Kromrey等共同研发的一款基于线性模型的置换检验实现协变量分析的SAS 宏命令(%METAPERM2)。该数据集中的小样本研究并不能满足正态性、独立性、方差齐性等前提假设。结果 采用广义线性模型的回归系数为: X1(年龄)=0.125, X2(地区)=0.291。五种回归权重检验方法的结果为:传统加权最小二乘法 β1=0.000, β2=0.338;Freedman Lane模型 β1=0.228, β2=0.180;Kennedy模型 β1=0.472, β2=0.557;Manly模型 β1=0.064, β2=0.040;Ter Braak模型 β1=0.075, β2=0.142。结论 在正态性、独立性、方差齐性理论假设条件下,传统最小二乘法系数检验的显著性比任何置换检验都要大;小样本研究的Meta分析采用置换检验可能是一种更为合适的统计学方法。
Objective To introduce a meta-analysis method based on permutation test of linear models for small-sample meta-analysis.Methods A Fleiss93cont example was used to introduce a SAS macro(%METAPERM2) for covariate analysis developed by Kromrey of the Southern University of Florida in USA. This small-sample dataset did not satisfy the assumptions such as normality, independence and homogeneity of variance.Results The regression coefficient of generalized linear model was X1 (age)=0.125, X2 (area)=0.291. The results of the five regression weight test methods were: The traditional weighted least squares (WLS) β1=0.000, β2=0.338, Freedman Lane model β1=0.228, β2=0.180, Kennedy model β1=0.472, β2=0.557, Manly model β1=0.064, β2=0.040,Ter Braak model β1=0.075, β2=0.142.Conclusions Based on the hypothesis of normality, independence and homogeneity of variance, the significance of the traditional WLS coefficient test was larger than that of any permutation test, and permutation test may be a more suitable statistical method for small-sample meta-analysis.
随着Meta分析技术越来越广泛应用于医学研究, 许多小样本研究得以被荟萃分析而成为高级别的临床证据。然而, 传统的Meta分析技术的显著性检验多数要求一定的前提假设, 只有满足这个假设时, 模型才有较好的效果。例如, 传统的两个样本均值比较时, 需先检查正态性、独立性、方差齐性, 而后采用参数方法或非参数方法进行假设检验, 但是, 这些方法都要求一定的样本量。现实中, 由于各种条件的限制, 导致样本量过小, 此时以上方法几乎都会失真, 导致检验的敏感性下降。目前小样本通常指样本量小于或等于30的样本。许多统计学家已经关注到传统Meta分析检验方法存在可能违背前提假设的敏感性问题。Fern等[1]认为, 由于理论观点、研究对象、研究方法和研究人员目标等方面的差异可能使研究的效应值的解释和比较复杂化。而某些关键的前提假设被违背时, Ⅰ 类错误将变得难以控制, 而Meta分析的统计效力也会受到影响。因此有必要提出新的荟萃分析技术来解决这类前提假设不满足的方法学问题[2]。置换检验被认为是最强大的统计学方法之一。为实现置换检验小样本Meta分析协变量分析在SAS 软件中的便捷计算, 并提高系统评价与Meta分析制作者对置换检验的关注度, 美国南佛罗里达大学的Kromrey等在2008年共同开发了一款基于置换检验实现Meta 分析协变量分析的SAS 宏, 即“ METAPERM2宏” 。该宏没有在正式期刊上发表, 读者可以从下列网址下载原文:http://www2.sas.com/proceedings/sugi31/146-31.pdf。国内尚无介绍置换检验实现Meta分析的文章。本文以Fleiss等[3]发表的数据Fleiss93cont为例, 介绍应用SAS 软件%METAPERM2宏命令实现Meta 分析协变量分析的过程。
目前大多数Meta分析使用Hedges等提出的Q检验来解决同质性和异质性问题[4]。同质性Q检验的目的是为了评估纳入分析的各个样本效应值是否来自相似的总体人群, 从而推断Meta分析的合理性。拒绝Q检验的零假设即意味着各个样本之间存在某些影响效应值的变量(这些变量通常未被指定)。
同质性Q检验可以被拓展于评价Meta分析中组间平均效应值的组间差别, 其中一个很好的方法就是将模型推广至线性模型[5, 6, 7], 即:
其中Xi代表潜在的协变量, β i表示潜在变量与观察到的效应值的回归权重。通常使用加权最小二乘法(weighted least squares, WLS)或最大似然法(maximum likelihood, ML)来估计该模型的参数。这些方法考虑了观测效应值的样本变异的差异。也就是说, 效应值通过估计的抽样误差的倒数进行加权。
值得注意的是, 许多统计学家认为, 尽管Q检验的应用非常广泛, 但如果其假设不能成立, 那么基于Q检验方法学的Meta分析对评估结果的可信度几乎没有指导意义。
置换检验是Fisher提出的一种基于大量计算, 利用样本数据的全(或随机)排列进行统计推断的方法, 因其对总体分布的要求较自由, 应用较为广泛, 特别适用于总体分布未知的小样本资料, 以及某些难以用常规方法分析资料的假设检验问题[8]。本文提出的基于线性模型的置换检验本质上是一种广义线性模型(generalized linear model, GLM)的推广。GLM要求观测值误差是随机的, 其特点是不强行改变数据的自然度量, 数据可以具有非线性和非恒定方差结构。置换检验是现有最强大的统计程序之一, 在违背传统参数检验前提假设的情况下提供了强有力的替代方案。它通过对观察到的检验统计量(例如, 平均效应值或通过估计获得回归权重)进行顺序上的置换, 重新计算统计检验量, 构造经验分布, 然后在此基础上求出P值进行推断。置换检验有望在Meta分析中提供一种新的检验假设方法, 可以避免Ⅰ 类错误控制不佳以及与Q检验相关的功效问题。
置换检验在局部权重线性回归中的应用比双变量回归更具挑战性。在诸如零阶相关或双变量回归的双变量模型中, 观察到的自变量(x值)和因变量(y值)的任何配对在零假设下同样可能。因此, y向量的元素(同样对x向量来说)可以被直接置换, 从而构建对零假设的有效统计检验。对于多元回归和构建局部权重线性回归的置换检验, 这种置换是无效的, 因为观察到的y值是一个关于回归因子集合的函数, 而不是单个回归因子(也就是说, 观察到的y值在零假设下是不可交换的, 即特定的局部权重线性回归为零)。这时候的置换需要在部分y值和部分与其他回归无关的xi值中进行。因此, 重点是推导反映回归权重的偏相关系数的检验。文献中提出的置换方法之间的差异主要反映在构建置换检验时如何获得这些偏相关系数。
一种方法是将典型的平方偏相关系数(在这种情况下, 考虑的是y和z之间的相关性, 而二者均受x控制)考虑为两个残差之间的相关性:
其中resy.x是去除x之后的y的残差(注意的是, x可能是单个变量或一组回归因子)。 该平方偏相关被用作具有x变量的检验方程中z的部分回归权重的检验统计量。 后面提出的四种构建置换检验的方法之间的差异反映了用于构建置换分布的统计量的差异。
在Meta分析应用中, y表示观察到的效应大小, 回归因子代表潜在的协变量。对于给定的包含y、z和x观测值的样本, 与x因子进行y的回归, 可以获得残差resy.x和预测值y′ 。 随后, z对x进行回归以获得残差resz.x。
Freedman等[9]提出的置换分布是通过置换残差resy.x并将它们添加到预测值y′ 构建一组新的y变量来构造的(这些新变量表示为yP, 因为它们不是实际的观察到的数据, 而是由观察数据的单一置换组成)。 现在, 这些yP值可以在x上进行回归以获得对于该数据置换(res_FLy.x)唯一的另一组残差, 并且可以获得置换后的平方偏相关系数:
请注意, 涉及z和x的残差在置换中没有改变, 它们的值在整个置换集合中是不变的。
Kennedy等[10, 11]提出的置换分布也是通过置换残差resy.x构造的, 但它们不与原始预测值重新组合。相反, 这些置换残差直接输入平方偏相关系数的计算中:
置换过程中唯一变化的数值是该公式的分子, 因为每个置换都会导致两个残差的新配对, 而残差的平方和保持不变。
Manly[12]认为原始观察到的y值可能是可以置换的, 并且可以获得这些置换后的y值在x上的回归, 继而提供残差(res_MNy.x)。 这些残差对于y向量的每个置换将是唯一的, 用于计算偏相关:
最后, Ter Braak[13]提出了一种与Freedman Lane方法类似的置换分布, 不同之处在于, 置换的残差是同时在z和x上回归y得到的(称为全模型残差)。对于y、z和x观测值的给定样本, y的观测值同时在x和z上进行回归以获得残差resy.xz。Ter Braak建议的置换分布是通过置换这些残差构造的, 然后仅在x上对它们进行回归, 以获得另一组残差, 这些残差(res_TBy.x)对于这种数据置换是唯一的。这个置换可以得到平方偏相关系数:
在所有四种方法中, 都是用观察值的平方偏相关作检验统计量, 然而, 这四种方法产生不同的置换分布, 对该观察值进行评估以获得概率描述。先前在线性模型中检验权重的研究表明[6, 14], 它们产生几乎相同的渐近分布, 但几乎都证明有限的样本确实存在实质性差异。此外, 这些方法还没有在线性模型中的加权估计的背景下进行研究, 例如Meta分析。
荟萃分析的模型大致可以分为固定效应模型和随机效应模型[15]。有关固定效应模型和随机效应模型的差别, 读者可以查阅其他文献。本文介绍的SAS宏中, 对于固定效果模型, 这些权重由下式给出:
其中σ 2是第i个效应量的估计方差。
相比之下, 对于随机效应模型, 使用的权重由下式给出:
其中σ 2和τ 2是第i个效应量的估计方差。
Kromrey等设计的METAPERM2宏分别使用标准WLS以及置换方法来计算回归权重检验。开发该宏旨为研究人员提供一种易于使用的工具, 用于在Meta分析中进行强大的检验。METAPERM2宏的主要参数介绍如下:
%macro METAPERM2(dsn, eff_size, n_1, n_2, n_x, n_perms, alpha);
其中dsn指拟分析的SAS数据集, 该SAS数据集中包含效应量(eff_size)、研究组和对照组样本量(n_1和n_2)和关于研究特征的信息(即协变量)。n_x指要分析的协变量的数量, n_perms是要执行的置换次数。Alpha指检验水准α 值(通常取0.05)。必须注意的是, SAS数据集dsn中回归变量的名称必须是X1、X2、X3等。
为了简单说明该宏的使用方法, 笔者采用Fleiss等发表的数据Fleiss93cont进行分析。该数据集资料如表1。该数据集表示在精神疗法在医疗资源的使用方面的一个连续性数据的数据集, study、year、t_n、t_value、t_SD、c_n、c_value、c_SD、age、region、d_value分别表示纳入文献的第一作者、发表年份、试验组的例数、试验组的均数、试验组的标准差、对照组的例数、对照组的均数和对照组的标准差、年龄、地区和拟研究的效应值。分析的目的是为了发现潜在影响效应值的变量年龄和地区。选取该数据集的原因是该数据集纳入分析的研究的样本量较小。d_value是拟研究的效应值, 是研究组效应值t_value与对照组效应值c_value的差。
调用SAS / IML宏的命令为:“ %METAPERM2(one, d_value, t_n, c_n, 2, 5000, 0.05); run; ” 运行宏程序之后的结果见表2。
在这个例子中, 根据表2的结果, 拟合出来的Meta分析线性模型为:
在这个模型中, 对X1(代表年龄)和X2(代表地区)回归权重的检验表明, X1是一个调节变量, 但是在控制X1之后, 回归因子X2与观察到的研究效应大小没有统计学显著相关性。对于第一个回归因子权重的检验, 传统的WLS检验产生的概率为0.000, 由于与这个检验的概率小于α 水平(0.05), 因此这个概率值在打印输出中用星号标记。WLS的分析结果提示, 年龄是一个显著性影响因子。而Freedman Lane、Kennedy、Manly、Ter Braak四种置换检验产生的概率均大于0.05, 因此这些概率未被标记。宏分析表明, 无论是哪一种置换检验结果, 均不能拒绝H0假设, 即年龄不是一个显著性因子, 这个结论与WLS的结果是相反的。本研究再次证实, 基于小样本的Meta分析, 若采用传统的假设检验, 很有可能导致错误的统计推断。
模型提供的另外一个信息是, 对于第二个回归因子X2权重的检验, Manly检验产生的概率为0.040, 由于与这个检验的概率小于α 水平(0.05), 因此这个概率值在打印输出中用星号标记。之所以与其他三种检查产生不同的结果, 原因在于Manly检验在小样本Meta分析的检验效能比Freedman Lane和Kennedy差。
本文的研究结果证明了传统WLS检验对主要研究中违背方差齐性假设的敏感性。传统的WLS方法提供了夸大的Ⅰ 类错误率的条件。若忽略了这种违背前提假设的存在, 在小样本Meta分析中特别有害, 因为Meta分析人员必须依靠初始研究报告中的细节来评估这种假设的可行性, 而事实上, 文章经常并未提供这方面的信息。根据现有的研究表明, 置换检验被证明具有优越的Ⅰ 类错误控制[16]。既往的研究表明, 在纳入研究数目较大(研究数量 > 50个)的荟萃分析中, 应用Manly(1997)和Freedman Lane(1983)的置换模型具有最大的检验效力, 而在小样本Meta分析(研究数量 < 10个)中, Kennedy(1995)的置换检验提供了最大的检验效能。Ter Braak检验较为保守, 检验效能非常低。本文WLS代表传统计算结果, 该方法计算的结果前提要求数据具有正态性、独立性、方差齐性。然而, 在这个理论假设条件下, WLS检验的显著性比任何置换检验都要大(见表2, 即WLS检验得出P < 0.05的可能性更大)。
Meta分析对于综合多个试验组的研究成果变得越来越重要, 但基于Meta分析得出的推论的准确性取决于统计工具的适当应用。随着Meta分析方法的使用越来越普遍, 研究人员必须留意某些检验方法的局限性。在小样本Meta分析中, 当原始研究违背了关键的前提假设时, 置换检验可以为传统的参数检验提供一种强有力的替代方法。
The authors have declared that no competing interests exist.