作者简介:梁莉(1991-),女,甘肃平凉人,兰州大学第一临床医学院2009级医学影像学专业本科生,主要研究方向为影像诊断学。
目的调查我国“循证”冠名杂志发表的干预类系统评价/Meta分析统计学软件和统计学分析方法现状。方法以《中国循证医学杂志》、《循证医学》、《中国循证儿科杂志》、《中国循证心血管医学杂志》 4本杂志官方网站为数据来源,根据纳入排除标准,纳入干预类的系统评价/Meta分析/荟萃分析/系统综述,检索时间截止2011年12月31日。2名研究者独立提取资料,并输入Excel软件分析。结果共纳入干预类系统评价/Meta分析487篇,RevMan为最常用的统计学软件(445篇,91.38%),其次为Stata(13篇,2.67%)。92.81%(452篇)系统评价/Meta分析使用1种统计软件,1.64%(8篇)使用2种统计软件,5.54%(27篇)未报告使用的统计软件。统计学分析方法的描述和执行情况存在结果部分和方法学部分的报告率不等,尤其体现在敏感性分析、亚组分析和发表偏倚的评价,且其本身的报告比例并不高。结论调查显示RevMan是目前我国干预类系统评价/Meta分析的首选统计软件;正确地执行敏感性分析、亚组分析及评估发表偏倚可有效地避免各种偏倚。
Objective The aim of this study is to explore the statistical problems current situation of systematic reviews or meta analyses on intervention published in Chinese journals of titled “evidence−based”.Methods The official websites of the Journal of Evidence−Based Medicine, the Chinese Journal of Evidence−Based Medicine, Chinese Journal of Evidence Based Pediatrics and Chinese Journal of Evidence−Based Cardiovascular Medicine being the sources of data, according to the selection criteria and exclusion criteria, the studies that met the condition were selected and then analyzed with the Excel software. The deadline was December 31, 2011.Results A total of 487 studies were fitted into at last. RevMan is the most commonly used statistical software (445 studies, 91.38%), followed by Stata (13studies, 2.67%). Software combinations: A kind of software used (452 studies, 92.81%), the use of two kinds of softwares (8 studies, 1.64%), and 5.54% (27 studies) did not report any software. The reporting rate of description and implementation for statistical methods was different in result section and methodological section, especially reflected in the sensitivity analysis, subgroup analysis, publication bias evaluation, and the ratio itself was poor.Conclusion The survey showed that the RevMan was the first choice on systematic reviews or meta analyses on intervention. The uses of subgroup analysis, sensitivity analysis, and publication bias were poor. More attention should be paid to these files in future studies.
综述性文献因对相关知识信息系统化、条理化,以便加深理解、巩固记忆,使认识得以深化,已成为一种非常重要的文献信息资源[ 1]。近年来,随着各种统计学方法的不断完善和引入,人们开始在很多学科中采用定量的分析方法来处理查阅的文献,从而得到更加准确的结果。Meta分析已经成为在各学科尤其在医学、心理学等学科中被广泛应用的一种定量分析方法。
Meta分析是将多个同类研究结果合并为一个量化指标的统计学方法,从统计学角度达到增大样本含量、提高检验效能的目的,从而为临床决策提供更可靠的证据[ 2]。随着计算机应用的逐步深入,许多大型统计学软件都提供了Meta分析的功能,同时出现了专门用来进行Meta分析的软件并在多个学科中得到了广泛的应用。现阶段较常使用的统计学软件有Review Manager(RevMan)、 meta−analysis(MA)、 meta−disc(MD)、Stata等。不同统计分析软件对于处理同组数据、执行同种方法的过程存在很多差异,在处理过程中也各有利弊,且都具有其独到之处[ 3]。而正确选用统计学软件及统计分析方法是Meta分析得以顺利进行的保障。
我国以“循证”冠名的杂志有《循证医学》《中国循证医学杂志》《中国循证儿科杂志》和《中国循证心血管医学杂志》,4本杂志均为“中国科技核心期刊”,收录的系统评价尤其是干预性试验系统评价/Meta分析文章逐年增加。然而其统计学软件使用和统计学分析现状尚不清楚。
纳入标准:干预类系统评价/Meta分析/荟萃分析/系统综述。
排除标准:有下列情况之一者,予以排除:①系统评价/Meta分析计划书;②单纯性文献质量评价及重复发表;③系统评价/Meta分析述评或方法学介绍;④国内外系统评价/Meta分析摘要;⑤国外系统评价/Meta分析译文;⑥非干预类系统评价/Meta分析;⑦动物研究。
由2名研究者(葛龙、田金徽)对《中国循证医学杂志》、《循证医学》、《中国循证心血管医学杂志》和《中国循证儿科杂志》 4本杂志的官方网站进行逐期逐篇检索,时间限定为创刊至2011年12月31日,语言限定为中文。
2名研究者(梁莉、李雅睿)按照以下流程对4本杂志逐一进行文献筛选,若遇不一致之处通过讨论或征求第三方意见决定。①阅读每篇文献的题目和摘要,排除明显不符合纳入标准的不相关研究;②对于任何1篇潜在的相关研究调阅全文分析;③分析、判定重复发表文献;④根据纳入、排除标准复核纳入研究;⑤最终确定纳入研究,进入数据提取阶段。
采用 Microsoft Excel 工作表建立《我国干预类系统评价/Meta分析的统计学信息采集表》,提取内容包含文献基本信息(发表杂志、发表年代、作者数量、疾病分类、干预措施以及基金资助情况)和文献统计学信息(统计软件、敏感性分析、亚组分析、发表偏倚、统计模型、统计效应量)两个部分。资料提取由2名研究者(梁莉、李雅睿)独立进行,若遇不一致之处通过讨论或咨询田金徽老师决定。
采用Excel软件对纳入系统评价/Meta分析的所有提取信息进行描述性分析,数据使用SPSS 17.0软件进行处理,并用95%可信区间(confidence interval,CI)表示。
共纳入487篇SR/MA,其中《循证医学》70篇(14.37%),《中国循证医学杂志》379篇(77.82%),《中国循证儿科杂志》30篇(6.16%),《中国循证心血管医学杂志》8篇(1.64%)。从年度发表数量来看,从2001年的8篇增加到2011年的74篇,总体呈上升趋势。根据世界卫生组织2006年修订的国际疾病分类(第10版)对487项研究进行疾病分类,共涉及20个疾病谱,其中肿瘤(83篇,17.04%)、循环系统疾病(63篇,12.94%)和泌尿生殖系统疾病(54篇,11.09%)研究最多。按照试验组干预措施分类,西医占绝大多数(366篇,75.15%)。单篇SR/MA的作者数量3人及以上的文献达431篇(88.50%)。纳入的487篇研究中基金资助论文123篇(25.26%),基金资助平均数量为1.2个。
纳入的487篇干预类SR/MA中,主要用到的统计学软件及其使用频数依次为RevMan 445篇(91.38%)、Stata 13篇(2.67%)、SPSS 5篇(1.03%)、SAS 2篇(0.41%)、Excel 2篇(0.41%)、R软件1篇(0.21%),见 图1。27篇(5.54%)SR/MA未报告使用何种统计软件,使用1种统计软件452篇(92.81%),使用2种统计软件8篇(1.64%),具体组合情况为:RevMan+SPSS组合2篇(0.41%),RevMan+Excel组合2篇(0.41%),RevMan+Stata组合2篇(0.41%),RevMan+R软件组合1篇(0.21%),Stata+SPSS组合1篇(0.21%)。
由 表1可知,各统计学分析方法的报告比例均存在结果部分低于方法学部分的现象,即大部分研究在方法学部分描述了预期进行统计学分析的方法,但是在结果部分未实施或未说明相应的统计学分析;或者作者在结果部分所实施的统计学分析并未在方法学部分进行方法描述。尤其体现在敏感性分析、亚组分析和发表偏倚评价等方面,且它们本身的报告比例并不高,报告比例超过50%者甚少。
随着循证医学的发展,Meta分析已被公认为客观评价和合成针对某一特定问题研究证据的最佳手段,被视为最高级别的证据,成为循证决策的良好依据[ 4]。在系统评价/Meta分析的过程中,统计学方法和软件的合理选择与否将会直接影响综合分析的准确性和科学性。
本文通过对《循证医学》、《中国循证医学杂志》、《中国循证儿科杂志》和《中国循证心血管医学杂志》 4本杂志的统计学软件使用情况进行调查,发现使用RevMan软件(445篇,91.38%)者占绝大多数,其次是Stata软件(13篇,2.67%),而其他软件仅为个例报告。其中,RevMan软件是国际Cochrane协作网制作和保存Cochrane系统评价的一个程序,该软件可制作和保存Cochrane系统评价的计划书和全文,可对录入的数据进行Meta分析并以森林图的形式展示,可对Cochrane系统评价进行更新[ 5], RevMan是当前医学领域应用最为广泛的Meta分析软件。由此可见,RevMan软件强大、完备的Meta分析功能得到了权威机构和绝大多数系统评价员的认可和信赖,已经成为系统评价者的首选统计软件,并发挥着不可替代的作用。而Stata软件可完成几乎所有类型的资料及变量的Meta分析,功能异常强大。据悉,Stata是目前Meta分析最受推崇的软件,国外高质量杂志更倾向于接收Stata Meta分析图形界面[ 6]。故Stata软件也因其完备的功能而被广泛使用。
此外,统计结果显示仅8篇(1.64%)研究报告使用了2种统计学软件,还有27篇(5.54%)未报告使用统计学软件情况,其他研究都只使用了1种软件。表明我国的系统评价在软件使用方面过于单一,而拥有各具优势的统计分析软件组合是非常必要的,它不仅可以提高工作效率,还可提高分析的可靠性。比如对Meta分析的发表偏倚进行评价时RevMan仅可通过漏斗图直观地判断有无发表偏倚;而Stata、MIX、CMA软件除了漏斗图外,还可以用 Begg's检验和Egger's检验等定量的检验发表偏倚;再者,各种Meta分析软件在性价比、针对数据类型、使用的难易度方面各有差异。故笔者建议在选择最适合自己软件的同时,重视多种软件的组合使用,将会使统计结果更加精确、合理。
数据合并的正确与否直接关系到研究结果的真实性。一个完整的数据合并方案应该包括三方面的内容:①同质性检验,这是数据合并的先决条件。它是对不同原始研究结果变异程度进行检验。如果检验结果有显著性差异,应该解释其可能的原因并考虑进行结果合并是否恰当,具有临床异质性的数据是不适合合并的。②Meta分析应根据资料类型及评价目的选择效应量和统计分析方法。③必要时进行敏感性分析,以判定结果的稳定性和强度[ 7]。因此,研究者应该在这一部分描述主要效应测量指标、合并结果的方法(统计学检验与可信区间)、缺失资料的处理、异质性评价、敏感性分析、亚组分析等情况。
3.2.1 同质性检验
做Meta分析首先应当保证临床同质性,比如研究的设计类型、试验目的、干预措施等相同,否则就要进行亚组分析[ 8]。统计结果显示,无论是亚组分析还是统计效应模型的选择,其结果部分的报告率均远远低于方法学部分,究其原因,可能是部分研究者对统计学方法的理解和使用不够熟练和全面。本研究统计结果显示,亚组分析的报告率均未超过50%,统计模型的选择中固定效应模型和随机效应模型所占比例较大,从侧面反映出我国系统评价者更侧重于异质性的评估,而对异质性来源进行了亚组分析的相对较少。
3.2.2 效应量的使用
效应量的整体报告比例,结果部分稍高于方法学部分,提醒各研究员在方法学报告部分需尽量详细。纳入研究所使用的效应量中,风险比(relative risk,RR)和加权均数差(weighted mean difference,WMD)所占比例较高,这可能与研究变量的类型不同有关,Cochrane系统评价手册提出,二分类变量常用的效应量指标有RR、优势比(odds ratio,OR)和风险差异(risk difference,RD);而连续型变量的最常用效应测量指标是WMD和标准均数差(standardized mean difference,SMD)。故效应量指标的组合使用应以两种或三种所占比例最高才趋于合理,而本研究的统计结果也的确如此。
3.2.3 敏感性分析
敏感性分析主要针对研究特征或类型如方法学质量,通过排除某些低质量的研究,或非盲法研究探讨对总效应的影响,从而达到改变纳入标准(特别是尚有争议的研究)、排除低质量研究的目的。同样,统计结果显示敏感性分析报告比例不高且存在结果部分和方法学部分报告比例不符合的情况。
3.2.4 发表偏倚评价
发表偏倚是指有统计学意义的研究结果比无统计学意义的研究结果更容易被发表,杂志编辑也往往倾向于录用有统计学意义的论文,可能导致Meta分析过分夸大治疗效应量或危险因素的关联强度,从而导致临床上基于循证的个体化治疗与卫生决策上的失误。因此,识别是否存在发表偏倚成了Meta分析前的一项重要工作。统计结果显示发表偏倚的评价方法中漏斗图(76篇,15.61%)使用最多,其次为失安全系数(3篇,0.62%)和Egger's检验(2篇,0.41%)。这说明漏斗图用来评价发表偏倚已经被大多数研究者所认可,但它只能作为一种通过定性判断图形是否对称来评价Meta分析是否存在发表偏倚的方法而具有很大的主观性[ 9]。鉴于此,Begg's检验、Egger's检验和失安全系数等定量方法被应用于评价Meta分析的发表偏倚[ 10, 11, 12]。但统计结果显示使用上述定量方法者并不多。故笔者建议应该结合定性与定量多种方法对发表偏倚进行评估。
本研究的数据只来源于《循证医学》、《中国循证医学杂志》、《中国循证儿科杂志》和《中国循证心血管医学杂志》4本杂志中的干预试验系统评价/Meta分析,不能代表更大范围内干预试验统评价/Meta分析的总体现状;未纳入国外学者撰写的有关干预试验系统评价/Meta分析,故无法与国外的同类研究进行比较。
基于纳入的487篇干预试验系统评价/Meta分析可知:①我国干预试验系统评价/Meta分析的发展速度快,涉及疾病类型广泛;但在统计学软件和统计分析方法上仍有很多不足,需各系统评价者积极努力,加以完善;②评价结果并未全面呈现我国学者撰写的干预试验系统评价/Meta分析的全貌及其与国际水平的差距。