論文にまとめるための統計解析①―欠測データの扱い

第4回

研究テーマも固まり、さて、研究を始めようというときに、既存のデータベースを利用する場合、必ず直面するのが「欠測データ」です。前向きに収集する研究であっても完璧なデータセットはほとんどなく、重要な変数のデータが抜け落ちていることがあります。統計解析を行う際、この「欠測データ」の取り扱いをどうするか、悩ましい問題です。

一番簡単な対処法は「欠測データ」を除外して、すべての変数が得られているデータセットだけを使用する方法です（完全データ解析）。

この対処法は「欠測データ」が少ない場合（目安としては５％以内）、また欠測の起こり方がランダムな場合には、この対処法で行った場合でも、あまり影響は少ないと言われています。

しかし、「欠測データ」が多く、欠測を起こすかどうかが他の変数と関連性を持つ場合には、単純に削除すると、バイアスが生じてしまいます。

また、「欠測データ」に平均値を代入するなど単一の値を補完する方法を使用すると、分散が過小評価されてしまいます。「欠測」というカテゴリを作って分析する方法もよく行われますが、異質な集団を同一として扱うことになってしまいます。

多重代入法による欠測の推定・補完

近年、多重代入法（multiple imputation）という手法を適用して、「欠測データ」をデータが存在する他の変数から推測して、補完する方法が推奨されています。

例えば、進行度別のがん患者の生存率を算出したい場合に進行度不明の症例のデータがあるとします。進行度が不明の集団における生存率は進行度がわかっている集団よりも低いことがわかりました。このまま、除外してしまうと、予後の悪い集団を除外しており、偏った結果となってしまいます。

そこで、進行度不明のデータを、性別、年齢、生存時間など他の変数を用いて推定します。複数回（10～20回程度）、予測式によって不明の進行度が代入されたデータセットを作成し、その複数のデータセットによる解析の結果をまとめるという方法です（下図）。

図　多重代入法の流れ

①解析対象のデータセットに基づき、補完モデル（imputation model）を作り、モデルにより欠損値を代入したｍ個のデータセットを作成する。解析に使わない変数も入れることができる。

②ｍ個のデータセットを使って、ｍ回の解析を行う。つまり、ｍ個の解析用モデルにより、ｍ個の結果（パラメータの推定値）が得られる。

③Rubinのルールに基づき、ｍ個の結果を集約し、最終の結果を得る。

詳細はチュートリアルペーパーを参照してください_（※１）。

多重代入法による補完を行った結果をメインの研究の結果として使用することもありますし、完全データ解析を行った結果をメインの結果としつつ、多重代入法を行った結果と差異がないことを確認するという使い方もあります。

多重代入法が利用できるのは欠測するかどうかが他の変数と関連するものの、欠測した値には依存しないという条件があります。

【参考文献】

^※１　Nur U, Shack LG, Rachet B, Carpenter JR, Coleman MP. Modelling relative survival in the presence of incomplete data: a tutorial. Int J Epidemiol. 2010;39:118-28.