作者简介: 王吉林(1981-),男,湖南新化人,医学博士,研究方向为消化道肿瘤的防治与分子机制。
目的 系统研究主要消化病杂志上发表的随机对照试验报告质量现状。方法 系统分析并比较2008年和1998年发表在5本主要消化病杂志上的随机对照试验报告质量。相关文章通过检索MEDLINE获得。质量评价采用CONSORT声明修订版中的部分条目,内容包括随机序号产生、分配隐藏、盲法、样本量估算和意向性处理分析等。结果 共检索到2008年的随机对照试验107个,1998年的99个。2008年的随机对照试验中,有76%(81/107)报告了恰当的随机序号产生方法,58%(62/107)报告了恰当的序号隐藏方法,58%(62/107)盲法恰当,78%(83/107)报告了恰当的样本量估算方法,69%(74/107)使用了意向性处理分析;而1998年相应的结果分别为35%(35/99),25%(25/99),53%(52/99),47%(47/99),42%(42/99)。结论 2008年与1998年相比,5本主要消化病杂志上的随机对照试验报告质量有了明显的提高,说明CONSORT声明修订版对于随机对照试验报告质量的提高有很大作用,但目前其报告质量仍有很大的提升空间。
Objective After the publication of the revised CONSORT (CONsolidated Standards Of Reporting Trials) statement, few systematic studies have been conducted to assess the extent of improvement in the quality of RCT (randomized controlled trail) reporting in major gastroenterological and hepatological journals.Method The quality of RCT reporting in five major gastroenterological and hepatological journals published in 1998 or 2008 was analyzed and compared systematically. RCT-related articles were retrieved from MEDLINE using a high sensitivity search method. Their quality was evaluated based on some of the checklist items recommended in the revised CONSORT statement, especially those pertaining to methodology including random sequence generation, sequence concealment, blinding, sample size calculation, and ITT(intent-to-treat) analysis, as well as some other descriptive indicators.Results Our search retrieved a total 107 RCTs published in 2008 and 99 RCTs in 1998. In the RCTs reported in 2008, 76% (81/107) had adequate sequence generation, 58% (62/107) adequate sequence concealment, 58% (62/107) adequate blinding, 78% (83/107) adequate sample size calculation and 69% (74/107) ITT analysis. The corresponding values for RCTs reported in 1998 were 35% (35/99), 25% (25/99), 53% (52/99), 47% (47/99) and 42% (42/99), respectively.Conclusion The quality of RCT reporting in 2008 has improved significantly comparing to that in 1998, indicating increased awareness of and compliance with the revised CONSORT statement. However, there is still much room for the improvement.
在循证医学领域, 随机对照试验(randomized controlled trail, RCT)被认为是最好的证据来源, 设计合理且执行正确的RCT为医疗卫生干预措施的有效性提供了最佳证据。但是目前RCT的报告质量不尽如人意。不恰当的报告及试验设计将使治疗措施的效果产生偏倚。有研究指出方法学缺陷使干预措施疗效夸大, 如随机方法的缺陷将使疗效高估30%, 而盲法不充分将使疗效夸大14%[1, 2, 3]。
旨在提高RCT报告质量的CONSORT 声明发表于1996年, 修订于2001年, 该声明提供了一种基于证据的报告RCT的标准方法, 它发表之后, 迅速被许多医学杂志和医学编辑组织所认可并采纳[4, 5]。有报告指出, 应用CONSORT声明中的条目和流程图可以提高RCT的报告质量[6, 7]。但在消化病学杂志中, 自2001之后, 很少有人对已发表在杂志上的RCT做方法学方面的评价, 更无人系统地比较过CONSORT 声明修订版发表前后RCT的报告质量到底提高了多少。为此, 我们系统地评价并比较了1998年和2008年发表在5本主要消化病杂志上的RCT报告质量, 以确认RCT报告质量的现状。
本研究包括1998年和2008年以全文形式发表在Gastroenterology、 Gut、 Hepatology、 American Journal of Gastroenterology和Journal of Hepatology上的所有RCT文章。选择1998年的文章是因为它在CONSORT 声明发表之后, 但在其修订版发表之前。选择2008年的文章是因为它离CONSORT 声明修订版发表时间已较久, 应该能反映出RCT报告质量的改善。
我们采用Robinson 和 Dickersin 提供的高敏感性检索策略[8], 在MEDLINE上检索相关文章。因该检索策略发表于2002年, 与现在MEDLINE中Mesh 主题词和出版类型有些许不同, 故为了避免遗漏, 我们又手工检索了这5本杂志。
那些使用了“ random” 、“ randomly” 、“ randomization” 或“ randomized” 来描述分配方法的试验都被认为是RCT。以摘要形式发表的试验、包含动物和志愿者的随机试验、随机试验的综述、系统评价以及后续研究、未报告随机分配病人的干预结果的试验均被排除在外。
我们采用CONSORT 声明修订版中提供的清单中的一部分来评价RCT的报告质量及其实施情况。另外, 由于CONSORT中未包含的许多条目也应包括在临床试验报告中, 如伦理委员会审核意见、病人的知情同意、资金来源等, 故我们一并进行统计并讨论。具体分析指标见表1。
在RCT报告中, 随机方法及盲法显得尤为关键, 故对于随机序号的产生、分配隐藏及盲法采用最新版Cochrane Handbook for Systematic Reviews of interventions中提供的方法进行分析[9]。
本文的一位作者(王吉林)从所有文章中提取数据, 另一位作者(林艳伟)随机抽查了其中的24%的文章(共50篇), 并独立提取数据。对提取数据过程中产生的分歧通过讨论解决。讨论后仍无法达成一致意见的则保留各自的意见。样本结果和总体结果之间用Kappa 评分进行比较。所有的统计分析都应用SAS 9.2 软件(SAS Institute Inc. USA)进行。
图1描述了2008年的检索结果和入选RCT文章的流程图。从该5本期刊中共检索出2008年的相关文章851篇, 其中739篇在阅读标题和摘要后被排除, 因为它们并非真正的RCT, 或者是动物实验, 或者是综述或者系统评价。另外9篇被排除是因为其中包含志愿者。最后得到103篇文章, 共包含107个随机对照临床试验。图2 描述了1998年的检索结果和入选RCT文章的流程图。从这5本杂志中共检索出1998年的相关文章671篇, 其中568篇在阅读标题和摘要后被排除; 理由同上。另外, 10篇被排除是因为其中包含志愿者。最后共得到93篇文章, 共包含99个随机对照临床试验。
在上述指标中, 两位作者提取的数据结果的Kappa 评分均大于0.80, 说明具有很好的一致性(具体指标为中心, 资金来源, 疾病谱, 病例数, 伦理委员会批准, 患者知情同意, 样本量计算, 随机序号的产生, 分配隐藏, 盲法, 意向性处理分析, 随访期, 纳入标准, 临床基线特征)。
2.3 2008年和1998年RCT报告特征比较
2.3.1 疾病分布
2008年的107个RCT中包括24种疾病:其中19个试验与慢性丙肝有关、17个与炎症性肠病有关、12个与慢性乙肝有关、11个与肝硬化有关、8个与大肠癌有关; 与食管静脉曲张破裂出血、功能性胃肠疾病、胃食管反流病和脂肪肝及大肠镜检查有关者均分别为4个; 3个与消化性溃疡有关, 与胰腺炎、胃癌、上消化道不适、胶原性结肠炎有关者均分别为2个; 其他涉及胆管癌、乳糜泻、短肠综合征、痔疮、便秘、肥胖及贫血者均分别有1个。
1998年的99个RCT中包括26种疾病:其中与慢性丙肝和消化性溃疡有关者分别有15个; 12个与肝硬化、11个与炎症性肠病、5个与肝癌、5个与消化道内镜检查、4个与胃食管反流病有关; 与食管静脉曲张破裂出血和与胰腺炎有关者均为2个; 分别有2个与慢性乙肝、脂肪肝、自身免疫性肝病、功能性胃肠病、上消化道不适、短肠综合征、肝移植、慢性胃炎及腹泻等有关; 分别有1个和大肠癌、胃癌、胰腺癌、HP感染、贲门失弛缓症、肛裂、肠道移植物抗宿主病及非心源性胸痛有关。
从上述疾病分布可以看出, 在1998年及2008年, 慢性丙肝、肝硬化、炎症性肠病均是研究的热点。在1998年时, 消化性溃疡的研究试验很多(15个, 14%), 乙肝的试验很少(2个, 2%)。但到了2008 年时, 消化性溃疡的试验明显减少(3个, 3%), 而乙肝的试验明显增多(12个, 12%)。
2.3.2 2008年和1998年的部分描述性特征的结果见表2。
Bai等[10]的报告指出, 那些公司赞助的以及多中心的临床试验较政府赞助的、单中心的临床试验的报告质量要好。从表2可以看出, 2008年较1998年相比, 多中心的临床试验以及公司赞助的临床试验明显增多。而且在1998年的临床试验报告中, 有33%没有明确报告其资金来源, 而2008年只有5%。
2.3.3 病例数和随访期限见表3。
2008年的临床试验病例数的中位数为167, 而1998年为94; 2008年临床试验随访期限的中位数为356天, 而1998年为178天。Bai等[10]的报告指出, 病例数> 100为随机序号产生方法恰当和样本量计算方法恰当的独立决定因素, 因此, 2008年的临床试验报告质量要优于1998年。
2.3.4 2008年和1998年RCT报告质量比较见表4。
2008年较1998年相比, 随机序号产生方法得当的比例提高了41%, 分配隐藏方法得当的比例提高了33%, 盲法得当的比例提高了5%, 样本量计算方法得当的比例提高了31%, 意向性处理分析使用的比例提高了27%, 纳入标准及临床基线特征描述均报告得较充分。其中随机序号产生方法得当, 分配隐藏得当, 样本量计算方法得当, 意向性处理分析方法的使用之间的差别按α =0.05水平, 差异均有统计学意义。本文关于2008年的RCT报告质量与Bai等的报告结果相近[10], 关于1998年的报告结果与2001年之前的其他三个报告结果相近[11, 12, 13]。
我们当前的报告显示, 2008年在5本主要的胃肠病及肝病学杂志上发表的RCT报告质量较1998年的有明显提高, 但仍存在诸多不足。报告显示, 仍有24%未报告恰当的随机序号产生方法, 有42%未报告恰当的序号隐藏方法, 有42%未报告恰当的盲法, 有22%未报告恰当的样本量计算方法, 有31%未采用意向性分析方法。由此可以看出, 在RCT的报告质量方面仍有很大的提升空间。
如何将受试者分配到治疗组或其他干预组是临床试验设计的关键, 其中确保随机分配是优先选择的方法, 高质量RCT的关键在于使用正确的随机化方法。随机化有三大优点[14, 15, 16]:一是治疗分配时减少偏倚; 二是减少治疗分配后产生的偏倚; 三是随机分配允许使用概率论来表达由机遇造成的结局差异的可能性。因此, 在临床试验过程中应采用合适的方法以保证随机化的成功。临床试验报告时也应提供充分信息以便读者判断产生随机分配序列的方法是否恰当, 而不是仅仅见到“ 随机分配” 、“ 随机” 等文字的笼统描述。在随机序列的产生方面, 2008年比1998年已有了很大提高, 但我们看到现在仍有24%的RCT未报告恰当的随机序列产生方法。
随机序列产生后, 如何隐藏该序列直至分配结束对于随机化的成功至关重要[17]。通过分配隐藏, 使得负责纳入受试者的人不能预见下一个受试者将被分配到哪一个试验组, 从而避免偏倚的产生。有研究表明, 分配序号隐藏不充分的试验与分配隐藏充分的试验相比, 前者会夸大治疗效果[18]。也有报告认为, 在避免偏倚方面, 分配隐藏比分配中的其他因素都要重要[19]。2008年与1998年相比, 恰当的分配隐藏方法已有了很大提高, 但仍有高达42%的RCT未报告正确的序号隐藏方法。分配隐藏如此重要, 而且比盲法容易实施, 因此我们强烈倡导在临床试验实施过程中, 采用正确的分配隐藏方法以避免选择性偏倚。
正确的盲法对于偏倚的产生同样具有重要意义。对病人和医生实施盲法可避免实施过程偏倚; 对病人、医生和其他参与结果测量的人员实施盲法可避免观察偏倚[20]; 对资料分析者实施盲法也可避免偏倚[21]。在最新的Cochrane handbook中[9], 已经摒弃了单盲和双盲等概念。在盲法的判断方面, 不管对谁采用了盲法, 有的甚至没采用盲法, 只要读者认为其不太可能产生偏倚, 就认为是盲法成功。我们在盲法的判断方面也采用了这种方法, 但是尽管如此, 2008年和1998年相比, 在盲法的应用方面仍没有很大提高, 仍有接近一半的RCT未采取正确的盲法。因此我们呼吁研究者在随机对照试验设计时, 应该特别注意盲法的应用以避免偏倚。
样本量估算对于临床试验的设计同样具有重要作用, 高估样本含量会影响试验的可行性, 低估样本含量会导致检验效能下降。小样本的研究常会得出各试验组间差异无统计学意义的错误结论[22], 一些有临床价值的差异可能很小, 需要大样本试验才能检出[23]。因此研究者在试验设计阶段即应考虑样本含量的估算, 在文中也应说明如何确定样本含量, 以使读者看到有充分的证据来判断临床试验结果有无临床意义。1998年时, 只有48%的RCT详细报告了样本量的估算方法, 而2008年时这一比例已提高到78%, 但仍有22%的RCT未提供样本量的估计方法。
临床试验结束后进行结果处理时, 如不能纳入所有受试者, 则可导致结果的偏倚。但事实上大多数试验因可能发生违背方案的情况而不能得到完美的数据, 被广为推荐的用于解决此类问题的方法是采用意向性分析原则, 即不论分组后实际情况如何, 均按最初分组情况分析所有受试者。意向性分析因可避免受试者的非随机丢失造成的偏倚, 因而广受青睐[24]。当然, 意向性分析并不适用于所有的领域, 在不良反应的分析方面就不能采用意向性分析方法。
另外, 根据CONSORT 声明修订版, 在RCT报告中还应详述受试者纳入标准和临床基线特征, 以便读者判断试验结果与某一特定病人的相关程度。我们的报告显示, 几乎所有的RCT均报告了纳入标准和临床基线特征, 只是有的不那么详细。
本文也存在许多局限性。首先, 在最新的Cochrane Handbook中[9], 避免偏倚的方法除了恰当的随机序号产生方法、恰当的分配隐藏方法和盲法之外, 还应包括结局数据的完整性, 是否存在选择性发表偏倚以及其他可能的偏倚等内容, 但本文仍采用CONSORT 声明修订版中的条目进行分析, 而未包括上述内容。第二, 因受时间及精力所限, 本文纳入的RCT仅限于1998年和2008年, 而未能包括CONSORT声明修订版发表前后的所有年度。同样, 我们也未对CONSORT 声明修订版中的所有条目进行分析并比较。第三, 本文纳入的RCT数量有限, 样本量较小, 2008年的只有107个, 1998年的只有99个。第四, RCT报告不充分, 并不能完全说明其试验设计及实施不正确。对于报告不充分的, 我们没有进一步与文章作者进行联系以获得进一步的信息。当然已有研究表明RCT的报告质量与其设计及实施质量是呈正相关的[25], 而且, 与作者进一步联系也很少能得到有用的信息[25]。因此我们的研究至少能部分反映出这5本主要消化病杂志RCT质量的改善情况。
总之, 在这5本主要消化病杂志中, 2008年和1998年相比, RCT报告质量有了很大提高, 说明CONSORT 声明修订版对于RCT报告质量的提高具有很大的作用。但是我们也看到, RCT报告质量仍有很大的提升空间, 我们呼吁作者及杂志编辑继续支持并采用CONSORT 声明修订版, 以便进一步提升RCT报告质量。
The authors have declared that no competing interests exist.