臨床試験の解析に用いられる統計手法の種類と選択
論文の批判的吟味において正しい統計手法が選択されているかも確認が必要。
(個人的には)有名論文は生物統計家のチェックが入っているので問題ないと思ってしまいますが、そうではないこともあるそうです。
統計の理論を1からすべて理解するのは大変なので、臨床統計においてどのよう場合にどの検定を用いればよいのかだけを簡単にまとめ。(そういう書籍も多くでており、それを参考に作成)
統計の理論を1からすべて理解するのは大変なので、臨床統計においてどのよう場合にどの検定を用いればよいのかだけを簡単にまとめ。(そういう書籍も多くでており、それを参考に作成)
単変量解析
1つの群に対して1つの値のみを比較して解析する。
交絡因子の考慮はせず、とりあえず得られデータを比較する単純なもの。
統計手法を選択する際のポイント(単変量、多変量 共通)
まず第1に、比較する値が連続変数かカテゴリ変数(2値変数、名義変数、順序変数)かを確認する。
連続変数:血圧、CRP、体温、年齢など連続しているもの
2値変数:死亡/生存、使用有/使用無などのように2値しかとらないもの:割合であらわされる。
名義変数:疾患名(1.がん、2.糖尿病、3.胃潰瘍)など2値でも順序でもないもの
順序変数:がんのステージ、重症度など2値ではないが順序で表せるもの
① 2群間で対応があるのかないのか
薬剤による血圧を比較する際、30人の介入前後を比較する場合、データは介入前の自分のデータと似た値になる:これを対応ありという。
まったく関係のない60人を集めて介入群とプラセボ群に分けて比較する場合、対応するデータはない:これを対応なしという。
※別の患者を集めてきた場合でも似たようなマッチングにより似た背景の人を集めてきた場合、対応ありとなる
② 正規性(パラメトリック)か非正規性(ノンパラメトリック)か
正規性とは、正規分布(平均値付近が一番多く、そこを頂点に左右対称に減っていく分布。左右対称なきれいな山の形になる)しているかどうか。
検査値は正規分布でないことが多い。正規分布かどうかわからない場合、とりあえず非正規分布(ノンパラメトリック)の手法を使えば問題ない。(優位差はやや出にくくなるらしいが、正規分布に対してノンパラメトリックの手法を使うことは問題なし)
③ 群間の分散は等しいか
2群間においてデータの散らばり方(分散)が似ているかどうか。
統計ソフトで等分散かどうか確認できる。ヒストグラムや箱ひげ図にて目視で確認する場合もある。
2群間の標準偏差の比は1.5くらいに収まっていれば等分散。(目安)
統計手法の選択:フローチャート(単変量解析)
上記のポイントを分岐点に、統計手法を選べばよい
連続変数
※比較する群は3つ以上の場合、それぞれに検定を行う(多重解析)してしまうとまぐれで有意差が出る確率が上がってしまう(下手な鉄砲・・・)ので、3群間以上比較する場合は分散分析(ANOVA)を用いる。
2値変数
相関関係
多変量解析
単変量解析は交絡因子を考慮せず解析している。
通常ランダム化されていれば交絡因子を無視してよいが、観察研究では補正が必要。
交絡因子を説明変数として解析する手法を多変量解析という。
例)
アスピリン使用者は非使用者より心血管死亡率が低いかを調べる際、アスピリン使用者と非使用者をただ集めてきて比較するとおそらくアスピリン使用者で死亡率は高くなる。
それはアスピリンが必要な病態であるから当たり前。
ここで、心血管イベントに影響する因子と考えられる心不全、糖尿病を交絡因子として考慮し、多変量解析を行うとアスピリンを服用したほうが死亡率抑制効果があることがわかる。
多変量解析では交絡因子(説明変数)の選択が重要となってくる。
交絡因子(説明変数)の組み込める数
統計手法により組み込める説明変数の数が決まってくる。
線形回帰:症例数を15で割った数
ロジスティクス回帰:イベント有無のうち少ないほうの数を10で割った数
COX比例ハザード:イベントありの数を10で割った数
線形回帰:症例数を15で割った数
ロジスティクス回帰:イベント有無のうち少ないほうの数を10で割った数
COX比例ハザード:イベントありの数を10で割った数
必要用例数の計算
排除したい交絡因子が多ければ多いほど必要サンプル数が大きくなる。
例)上記COX比例ハザードモデルで解析するとして、排除したい交絡因子が5つある場合、イベント発生が10×50=50となるような症例数が必要。
イベント発生数がそうなるようにしなければならないので症例数はもっと必要。
どのくらいイベントが発生するのかも過去の文献等から検討し、症例数を設定する。
交絡因子の決め方
交絡因子となっているであろうものをどうやって決めるか。
以下はやるべきでないこと
・群間で有意差を調べ、有意差が生じているものを交絡因子とする
例)降圧薬の薬効を比較する際、プラセボ群より薬剤投与群で糖尿病患者が有意差をもって多いので、糖尿病であることを交絡因子として設定
その臨床試験でたまたま生じてしまっている群間差もすべて交絡因子としてしまうことがあり、P値が極端に小さくなってしまい(オーバーフィッティング)、再現性が悪くなる。
交絡因子の決め方はデータを見ず、過去の文献、医学的見地から交絡因子になるであろうものを決める。
統計の中でもこのようなやや主観的な考えが必要になる。