■ 改変Rコマンダーによる多変量解析
本文では,多変量解析の手法のうち,重回帰分析と多重ロジスティック回帰分析を説明しています.
これらの解析のためには,知識も必要ですが,意外に簡単に解析できます.
本書では具体的な統計ソフトの操作は解説していませんが,改変Rコマンダーでは簡単にできますので資料を参考に行ってみてください → ここから
■ 補足:ステップワイズ法,AIC,BICについて(やや高度)
本書では,AIC(赤池情報量規準;Akaike’s Information Criterion),BIC(ベイズ情報量規準;Bayesian information criterion)という用語は,出てきていません.
改変Rコマンダーでは,重回帰分析はBIC基準によるステップワイズ法,多重ロジスティック回帰分析はAIC基準によるステップワイズ(変数増減)法を使用しています.
(注:変数増減ではなく減増法もステップワイズ法とよばれ混同されていますが,これらは結果が異なるときもあるので,注意が必要です.本書並びにここでは全て増減法として説明しています)
さて,ステップワイズ法は,複数の説明変数から,有意なものを選択するための方法であることは書きました.
一般的に,p<0.05となる説明変数の組み合わせを選ぶのが理想と考えるはずです(p<0.05主義の考え方).それをF値基準のステップワイズ法といって,従来は第一選択とされてきました.
しかし近年では,AIC,BICという基準のステップワイズ法が見られるようになってきました.これらの指標の影には,最尤法という面倒な概念が存在するのですが,簡単に多少の理論には目をつむって大雑把に言えば,将来性を見越した選択法になっているのです.
ここで「将来性」とは,「いまn=100のデータだが,もし1,000…10,000,100,000と増やしていったらどうなるだろうか?」とか,「別の研究者が別の対象で同じ研究を繰り返したらどうなるだろうか?」という未知の範囲まで想定した場合と考えてください.
例を挙げましょう.歩く速さには,膝伸展筋力と体重と,年齢と性別と,地域差と身長が影響すると思い,100人分(n=100)のデータを取って重回帰分析をしたとします.膝伸展筋力,体重,年齢,性別,地域差,身長のうちどれが影響するか,影響しない変数は削除してスマートな結果にしたい.と思うとき,ステップワイズ法で有効な説明変数だけに絞ります.ここで,F値基準のステップワイズ法を行ったら膝伸展筋力,年齢,性別それぞれがp<0.05で選ばれたとします(F値基準のステップワイズ法では,稀な例を除いて各変数のp値はp<0.05となります).通常は「p<0.05のものばかりで終了.めでたし」と思うでしょう.
ところが,「それはあなたが対象にしたn=100のデータから推測するに限ったはなしではないですか?もう一度,別なn=100でデータを取ったら同じ結果になると思いますか?」と言われるわけです.「いや,厳正なる無作為抽出によってn=100を決めたのだから,絶対大丈夫」というのであれば問題はありません.しかし,世の中はそうはいかないはずです.
そこで,もし仮に「別なn=100でデータを取ったら同じ結果になるだろうか…もしや今回,捨ててしまった地域差も有効な変数になるのではないだろうか」という疑いも込みにして結果を考慮したものがAICやBIC基準になります(ゆえにその可能性もある説明変数はpが0.05以上となっても採択されることがある).
そういった条件の下で,さらに「n=100の研究で,もしまた別のn=100を対象にしたら…」の考えと,「『n=10,000の研究で,もしまた別のn=10,000の研究とき…』とではnが違いすぎるから推定のレベルが違うだろう」とnも考慮して考えるのがBICです(厳密にはこう簡単ではありませんが,あくまでイメージです).このように考えると,将来性を考慮しつつnの大きさまでも考慮して計算するBICが最も優れている感があります.しかし,そう単純ではありません.
AICとBICに関しては,様々な議論があり,どちらが良いとも悪いとも言えません(参考例).F値基準も間違っているとは即決できません.いまだに様々議論されています.
結論としては,なにが正しいとも間違ってるともいえないので,どれを使っても不安は残るということです.学会なりで一般的に使われている方法を選ぶのが妥当かもしれません.
Rでは,デフォルトでAIC,BICの選択法が入っています.多重ロジスティック回帰ではAICを使うのが一般的です(慣習的なものなので,誰が決めた?,といわれたらそこまでです).重回帰分析では,依然F値を基準にする方法が一般的ですが,Rにデフォルトで備わっているBICがF値基準と類似した結果を得やすいという理由だけで,敢えてBICにしています(もちろんこの動機が間違いという指摘は大いにあります.しかし,何が正しいという結論が出ない以上,その指摘もまた誤りになります).
そもそも変数選択法を使用すること自体が誤りという指摘もありますが,臨床ではそう簡単ではありません.変数選択法を使わない方法が場合によっては適切かもしれませんが,現実には変数選択法を使わないで誤るケースの方が多くあります(変数選択法が十分に使えなかった約20年以上前は,常にこの問題に悩まされました).
いろいろと悩んだ挙句の現時点での結論をもとに改変Rコマンダーを作成していますが,新たな指標がどんどん生まれていっている以上,以上の判断も進歩によって古い考えに変遷していく可能性は十分にあり得ます.