临床试验设计中样本含量的理解
李河1, 李卫2, 杨学宁1, 吴一龙1
1. 广东省人民医院、广东省医学科学院, 广州 510080
2. 中国医学科学院国家心血管病中心医学研究统计中心, 北京 100037

作者简介:李河(1963-),男,内蒙古商都人,主任医师,医学博士,主要研究方向为流行病学与医学统计学在临床医学科研中应用、心血管病的二级预防研究。

摘要

关键词: 临床试验设计; 专业设计; 统计设计; 生物统计学; 样本含量
中图分类号:R195.1 文献标识码:A 文章编号:1671-5144(2012)06-0374-03
How to Read the Sample-Size in A Clinical Trial Design
LI He1, LI Wei2, YANG Xue-ning1, WU Yi-long1
Authors’ address: 1. Guangdong General Hospital, Guangdong Academy of Medical Sciences, Guangzhou 510080, China
2. Medical Research Center of Statistics, National Cardiovascular Disease Center, Chinese Academy of Medical Sciences, Beijing 100037, China
Abstract
Key words : clinical trial design; subject design; statistical design; biostatistics; sample-size

我们知道, 临床试验的设计包括“ 专业设计” 和“ 统计设计” 两部分内容, 统计设计中需要面对的重要问题之一就是“ 样本含量” 估计问题, 究竟需要招募多少例“ 研究对象” 才能够真正达到“ 样本含量” 的要求(统计学要求和临床专业要求), 又能够达到检验效能(power of a test, 或把握度1-β )的要求呢?或者说, 我们在理解他人的医学科研设计及发表论文中的样本含量大小时, 如何能够解读其中的样本含量估算秘密?其样本含量估算正确吗?其研究结果可信吗?可靠性有多高?如何保证在足够的最小样本量和可靠性前提下, 能够科学、合理、有效回答 “ 主要研究问题” , 达到“ 主要研究目标” 是需要我们临床医学工作者需要认真对待的问题。

理论上讲, 样本含量的估计原则是在保证“ 研究结果” 具有一定可信度(1-α )[或可信区间(confidence interval, CI)]及把握度(1-β )的前提下, 估算出能够达到“ 主要研究目标” 所需要的“ 研究对象最小例数” , 以便通过样本研究结果来推断总体特征(通过样本统计量推断总体参数)。如果考虑到失访(或丢失、脱落), 可以据不同情况增加10%~20%的样本量, 但是这一比例不能够太大。如果失访率超过20%时, 可能需要对失访原因、状况等进行分析, 在对研究结果下结论时, 当需慎重, 有时失访率太高常会导致研究失败。

影响样本含量估计的因素如下:

(1)检验水准α (α 为Ⅰ 类错误, 要区分单侧检验或双侧检验, 即可信区间CI)。如果在研究设计中对控制Ⅰ 类错误的要求高、即检验水准α 取小值(可信区间CI取小范围), 则样本含量估计值会增大。通常双侧检验比单侧检验所需要的样本含量大。一般取α =0.05或0.01。

(2)检验效能 1-β (β 为Ⅱ 类错误, 为单侧, 1-β 即把握度)。相对而言, Ⅱ 类错误的控制较Ⅰ 类错误的控制要求低, 故一般取β =0.20或0.10。当Ⅱ 类错误取小值时, 则样本含量估计值会增大。一般情况下, 我们常期望有较大机率得出“ 主要研究结果” 具有统计学意义的结论, 故常取β =0.20, 也就是取把握度1-β =80%。

(3)研究总体参数(目标总体参数)。如定量变量总体均数μ 和总体变异度σ (总体标准差)或σ 2(总体方差)的估计值(或目标值)。定性变量总体率π 和总体变异度π (1-π )(总体方差)的估计值(或目标值)。一般情况下总体变异度越大需样本含量越大。总体变异度越大时, 如果样本含量不足, 可能导致研究结果稳定性不佳, 甚至影响研究样本的代表性, 而影响研究结果的外推(样本→ 研究总体→ 目标总体), 直接降低研究结果的临床实际应用价值。

(4)一般而言, 我们常常希望检测到有意义的δ 估计值(δ 为容许误差, 可以是绝对容许误差或相对容许误差)。在这里有意义的δ 估计值(容许误差)可以理解为, 要求在临床医学专业上认为有意义的效果“ 差值” (或研究因素在临床医学专业上有意义的“ 效果” 或“ 效应” )。一般情况下, 设定的容许误差δ 越小则需要样本含量越大。需要注意的是, 有时效果“ 差值” 有统计学意义, 但不一定有临床医学专业意义。

(5)临床试验设计类型。不同的研究设计类型对样本含量的大小会有影响。一般而言平衡设计较非平衡设计需要样本含量小, 配对设计或配比设计需要样本含量小, 析因设计或拉丁方设计需要样本含量小, 可能单中心设计较多中心设计需要样本含量小(在中心效应有统计学意义时, 情况可能更为突出), 而需要分层设计的研究需要的样本量大等。

(6)主要研究目标(涉及主要研究目的、主要研究问题、主要研究变量)。如果在研究设计中需要考虑完成几个主要研究目标(2个或3个), 通常需要考虑增大样本含量。但是主要研究目标不能设置过多。

(7)主要研究终点(可以理解为能够实现主要研究目标的最重要的研究指标、研究变量, 如定量变量、定性变量、时间依赖型变量)。在研究设计中选定不同类型的研究变量, 对样本含量的大小有影响。可能与主要研究变量的总体参数及其人群分布特征等有关。如将主要研究变量设定为不同类型(如设定为定量变量、二分类变量、时间依赖型变量等), 将影响样本含量大小。设定为不同类型主要研究变量, 可能影响其变异性、稳定性、将采用的统计学处理方法, 从而影响样本含量的估计。另外在研究设计中设定“ 研究终点” 的个数也会影响样本含量大小。一般应该选择一个最有意义的最重要的终点变量来进行样本含量估计。如果考虑2个或以上终点变量, 可能需要分别计算n1、n2或 n3, 以便考虑取其最大者。但同样主要研究终点不可设置过多。

(8)对研究数据拟采用的统计学处理分析方法。我们需要在研究设计阶段明确将来要采用的统计学分析方法, 采用不同的统计学方法也会影响样本含量大小, 因为样本含量估计方法有赖于统计学检验原理。需要注意的是在临床试验(clinical trial)设计中, 我们更要采用成熟定论的统计学方法。

(9)研究组与对照组的样本分配比例。临床试验设计中常用的样本分配比例有“ 试验组∶ 对照组” = “ 4∶ 1、3∶ 1、2∶ 1、1∶ 1” (一般来说研究效率最高的样本分配比例为1∶ 1, 其可以达到相对最小样本量)。临床试验中也常取研究组例数多于对照组例数, 如此考虑可以有更多机会观察新疗法的副作用及不良反应, 有更多机会采用新疗法, 获得新疗法更多的临床经验, 有时也会有更多病人受益等。但研究组与对照组的样本分配比例一般不大于 4∶ 1, 因为分配比例大于 4∶ 1时, 只可少量减少对照组研究对象例数, 但往往会明显增大总研究例数, 而对研究效率的增加作用有限。

(10)研究数据的期望变异性大小。主要涉及组内变异、组间变异。有时还需要考虑到平均测量误差等。如果事先对其缺乏认识, 可以查阅参考以往研究文献、总结日常常规性资料, 最好是进行预试验(pilot study), 以便能够获得初步数据信息。对期望变异的估计将直接影响样本含量估计, 因为期望变异估计值会被直接应用在样本含量估计公式中。

(11)对照组期望结果。对照组期望结果的大小(如对照组中危险因素暴露率、对照组研究事件阳性率等), 也会影响样本含量的估计, 也与对照组的主要研究变量的总体参数、人群分布特征等有关。

(12)依据的理论分布原理不同, 也会影响样本含量估计。如以二项分布或Poisson分布原理进行的“ 差异性检验” , 其统计学公式有其应用条件, 所以如此进行的样本大小估计, 同样也要注意相应的应用条件。

(13)招募率。招募率高低会直接影响临床试验期限(病例招募期、临床试验期), 需要注意的是在实际工作中“ 招募率” 常常被高估, 工作中也常有招募期限被延长的情况发生。对于“ 事件时间依赖” 数据(time-to-event data)的样本量大小估计问题, 研究对象招募率(recruitment rate)、招募期限(recruitment period)、随访时间(follow up length)、某时点对照组事件发生率都会影响样本含量大小估计。

(14)依从性问题。如果“ 非依从性” =a%, 需要调整样本含量nc = n× 1002/(100-a)2。脱落问题:如果“ 脱落率” =b%, 需要调整样本含量nc=n× 100/(100-b), 或调整样本含量nc=n× (100+b)/100。

(15)在生存分析数据的研究设计中, 总研究期的长短和完成研究对象入组期的长短都会影响样本含量大小估计。

(16)需要注意的是, 在实际工作中如果估计得到的样本含量n大(n有时很大), 致使在实际研究工作中难以实施, 这时可以考虑取:α =0.10, β =0.20, 也可以把“ 差异” 即δ 的估计值取大些, 如取δ =10% 相对误差。研究组与对照组的样本分配比例取小些(如1∶ 1)。也可以考虑对研究对象进行限制、以便降低研究总体中的“ 个体变异” 性(但会影响研究结果外推)。或可以调整改变“ 研究终点” 变量, 但同时需要考虑将采用的统计学分析方法, 如有的研究者把“ 二分类变量” 调整为“ 事件时间依赖变量” 。但也有研究者一般不建议取α > 0.05 和/或β > 0.20, 而是建议增加“ 研究中心” 数, 以便有可能取得足够的研究样本含量。

一般情况下, 样本含量越大, 研究结果准确性越高, 也可以说结果越趋近总体参数真值。然而“ 样本含量越大越好” 的想法也不尽然, 我们常需要在“ 小样本” 与“ 大样本” 间找到相对合适的“ 平衡点” 。因为样本含量的太小, 常导致检验效能(把握度1-β )降低, 导致假阴性结果出现, 难以得出正确的结果; 也就是会导致“ 没有足够理由证明哪种处理好” , 这样的研究其实是一种资源浪费。样本含量太大, 往往导致人力、物力、财力、时间的浪费, 而且常常由于盲目追求大样本量可能导致更多混杂因素(confounding factor)的产生, 导致更大(或多)的偏倚(bias)发生; 有时也可能因为样本含量太大, 结果太准确, 超出实际需求, 而招募了太多的超出需求的研究对象的研究同样是一种资源浪费。

我们都希望临床试验有“ 好结果” , 即在两种处理“ 真正有差异时, 现有研究统计量能够发现这一差异(差异有统计学意义)” 。然而只有“ 差异” 足够大、而且有临床专业意义的“ 差异” 才有临床价值、才有实际意义。但有的研究者一厢情愿地以“ 期望差异” 去计算样本量, 如果过度乐观于新疗法, 过度高估“ 差异” , 就会导致样本含量被低估的情况发生; 结果是常导致一个低功效研究(underpowered study)的发生, 在本应该能够发现 “ 有意义差异” (差异有统计学意义, 特别是在差异有临床专业意义)时, 反而由于样本含量太小未能发现“ 有意义差异” (差异未见统计学意义)。从理论上讲, 应该以能够发现有临床专业意义的“ 最小差异” 为希望检测到的有意义的δ 估计值, 当得出巨大样本量时, 可以考虑取“ 中间差异” 来进行样本含量估计。取“ 期望差异” 越大, 不能发现 “ 有意义差异” 的概率越大(当存在 “ 真差异” 时)。

例如, 拟进行一项临床试验, 评价“ 新药” 与“ 标药” 抗肺癌疗效, 据文献“ 标药” 3年生存率=45%, 现“ 预试验” 估计“ 新药” 3年生存率=65%, 如果整个临床试验期设为5年, 而研究“ 病例招募” 在前2年内完成, 样本量N=?

据指数分布原理, 来完成生存研究(有截尾数据, censored)两生存率比较样本含量估计。设定L1、L2分别为两肺癌组3年生存率(L表示事件率λ ), uα =u0.05, uβ =u0.10, T为整个临床试验期时间5年, T0为在整个临床试验期时间的前2年(完成病人招募), N为两组总样本量, 采用SAS软件计算两组需要观察的总病例数为N=220例(每组110例)。数理统计公式:

N=2uαuβ2FL1FL2)]L1L22

FL=L21-e-LT-T0-e-LTLT0-1

预计每组需要观察到多少“ 死亡病例” 时研究能够有结论?设定M1、M2分别为两组病例中位生存时间, T为非中心参数(其值可查数理统计表), 结果为当取α =0.05, β =0.10时, 采用SAS软件计算预计每组观察到93例死亡病例时研究可以有结论; 取α =0.05, β =0.20时, 预计每组观察到70例死亡病例时研究可以有结论。数理统计公式:

N = 2T(ln(M2/M1))2

我们知道, 高质量的临床试验需要从研究设计阶段开始就有生物统计学工作者参加, 并且自始至终地参加, 其中样本含量估计与检验效能估算是需要在科研设计阶段就必须认真对待的问题, 对确保临床试验研究的成功非常重要。因为临床试验设计包含“ 专业设计” 和“ 统计设计” 两部分内容, 而“ 统计设计” 对于保证研究结果的“ 重现性、可靠性、科学性” 具有非常重要的意义。“ 统计设计” 是对资料搜集、整理、分析全部过程的合理安排, 其主要内容包含研究设计类型选择、研究对象选择(抽样随机化)、样本大小估计、研究对象分配(分组随机化)、对照组设置、试验因素安排(试验顺序安排随机化)、确定研究变量及相应统计分析方法等。不同的“ 专业设计” 和“ 统计设计” 所对应的样本含量估计问题不同, 对应的统计学分析方法不同。

The authors have declared that no competing interests exist.

参考文献
[1] 方积乾. 卫生统计学 [M]. 第7版. 北京: 人民卫生出版社, 2012. [本文引用:1]
[2] 方积乾. 医学统计学与电脑实验[M]. 第4版 . 上海: 上海科学技术出版社, 2012. [本文引用:1]
[3] 胡良平. SAS实验设计与统计分析[M]. 北京: 人民卫生出版社, 2010. [本文引用:1]
[4] Sinclair JC, Haynes RB. Selecting participants that raise a clinical trial’s population attributable fraction can increase the treatment effect within the trial and reduce the required sample size[J]. J Clin Epidemiol, 2011, 64(8): 893-902. [本文引用:1] [JCR: 5.332]
[5] Friede T, Kieser M. Sample size reassessment in non-inferiority trials. Internal pilot study designs with ANCOVA[J]. Methods Inf Med, 2011, 50(3): 237-243. [本文引用:1]
[6] Boyd KA, Briggs AH, Fenwick E, et al. Power and sample size for cost-effectiveness analysis: fFN neonatal screening[J]. Contemp Clin Trials, 2011, 32(6): 893-901. [本文引用:1] [JCR: 1.597]
[7] Navaneethan SD, Palmer SC, Smith A, et al. How to design a rand omized controlled trial[J]. Nephrology (Carlton), 2010, 15(8): 732-739. [本文引用:1] [JCR: 1.688]
[8] Jun M, Zoungas S, Perkovic V, et al. How to read a report of a rand omized controlled trial[J]. Nephrology (Carlton), 2010, 15(2): 153-157. [本文引用:1] [JCR: 1.688]
[9] Skorupski KA, Hammond GM, Irish AM, et al. Prospective rand omized clinical trial assessing the efficacy of Denamarin for prevention of CCNU-induced hepatopathy in tumor-bearing dogs[J]. J Vet Intern Med, 2011, 25(4): 838-845. [本文引用:1] [JCR: 2.064]