■ 多重決定問題とは
多重決定問題(multiple decision)は,よく”検定の多重性の問題”,”多重検定の問題”,”多重比較”と呼ばれますが,統計学的正確には前二者(多重比較以外)の用語は存在しません(竹内[編]:統計学辞典,1992).多重比較は,多重決定問題に包含されます.
ここでは,よく見られる多重決定問題の3つのケースを挙げます.
②A,B,Cの3群に対して,体重のデータそれぞれが正規分布に従うかを知りたいので,A,B,C,それぞれにシャピロウイルク検定を行った.
③AとB群の体重の比較のために,最初にシャピロウイルク検定を行って正規分布を確認したのち,Levene検定で等分散していることを確かめてから,2標本t検定を行った.
①は多重比較です.これに対しては良く知られる,多重比較法の適用で回避できるはずです.
②,③は,俗にいう”検定の多重性の問題”,”多重検定の問題”です(正確な表現ではありませんが,散見される用語です).
以降では,以上の全てをまとめて,暫定的に,いわゆる“多重検定の問題”と記載することをご容赦ください.
■ 多重検定の問題を見抜くために
検定を2回以上繰り返すとき,多重検定の問題が発生する可能性があります.
検定を行う際に,「母集団は同一かどうか」が判断のカギとなります.これは帰無仮説という仮説の成立をよく考えると,すぐわかります.
例えば上記①のケースで考えます.A,B,C群の母集団平均を,それぞれμA,μB,μCとします.
まず,帰無仮説{μA=μB=μC}を否定できれば,μA,μB,μCの間の,どこかに差があると考えます.これは分散分析の帰無仮説です.帰無仮説は,μA=μB=μCの1つです.
もし,帰無仮説{μA=μB,μA=μC,μB=μC}と考えるなら,帰無仮説は,μA=μB,μA=μC,μB=μCの3つになります(帰無仮説族).これは多重検定の問題が発生します.つまり,同時に帰無仮説が2つ以上存在するときに,多重検定の問題が発生します.
②の場合は,A,B,C群の体重データがそれぞれ正規分布に従うかを検定します.この場合,それぞれにシャピロウイルク検定を行い,それぞれが正規分布に従うかだけを確認したいのであれば,多重検定の問題は発生しません†1.
問題は,正規分布を確認したのちに,帰無仮説{μA=μB=μC}を検定したい(差の検定に進む)ときです.このときは,帰無仮説{Aの母集団分布=正規分布に従う,Bの母集団分布=正規分布に従う,Cの母集団分布=正規分布に従う}の3つの成立を仮定します†2.なぜなら,その後に帰無仮説{μA=μB=μC}と仮定して差の検定を行うなら,Aの母集団分布=Bの母集団分布=Cの母集団分布=正規分布に従う・もしくは従わない(3群の母集団分布は同一である条件下で)のいずれかが成り立たないと,次に行う差の検定の帰無仮説{μA=μB=μC}を仮定できなくなるからです.もう一つの理由は,帰無仮説{Aの母集団分布=Bの母集団分布=Cの母集団分布}という検定は現存しないからです.
それでは,「AもBもCも母集団分布が同じであればよいのだから,3群とも正規分布に従わないときもいいのではないですか?」という意見も正当です.しかし,それはシャピロウイルク検定では確認できません.シャピロウイルク検定で確認できるのは正規分布に従わない(沢山の分布があります)か,正規分布に従うか†3だけです.
③の場合は,上述とちょっと意味合いが異なってきますが,いくつかの検定を通過させて条件に合う検定を選ぶ手順です.実は,分散分析後の多重比較法(post-hoc検定)もこの問題を持ちます.
1つのデータにいくつかの検定を繰り返しますので,やはり多重検定の問題が発生しています.A群の体重が正規分布に従うはずなのに,偶然p<0.05になると,マンホイットニー検定やクラスカルワリス検定を適用するわけです.これらのノンパラメトリックな手法は,正規分布に従うデータに対して適用しても間違いではありませんが,せっかくの適切なパラメトリックな手法が適用できなくなります.改変Rコマンダーの差の検定(自動選択)では,この多重検定の問題を起こしていますので,正確に述べれば適切とはいい難くなります†4.
このように,母集団が同一か否かをよく考えると,多重検定の問題は回避できます.
†1 各々の検定の1-αは0.95
†2 1-Aが正規分布(0.95)×Bが正規分布(0.95)×Cが正規分布(0.95)=1-0.953=0.14263で0.05ではなくなる.
†3 帰無仮説「正規分布に従う」は積極的に支持できないので,正確には「正規分布に従わないとはいえない」です.誤った記述になりますが,正確に記述すればするほど,初学者には理解できなくなるので,きょくたんな表現をしています.
†4 それでは,改変Rコマンダーの差の検定(自動選択)は不適切な手法を行っているのか?といわれると,否定はできません.慣習的に行われている手法を自動化しているだけで,統計学的には正しいといえません.
■ 検定を繰り返したら何でも多重検定の問題?
それでは何でもかんでも「私は,1つの研究で,検定を沢山行うので,多重検定の問題が発生しているんだ」と考えるのは,間違いです.
例えば,A,B,C群があって,A群に新しい治療法,B,Cは過去の治療法を行って,A群がBよりもCよりも優れていることを表したいときは,多重検定の問題はなくなります.
このときの帰無仮説は,{μA=μB,μA=μC}です.この時点で,「2つ検定するのだから多重検定だ!」といいたいでしょうが,じつは,帰無仮説は{μA=μBかつμA=μC}であり,2つ同時に成り立つ必要があるからです.もちろん,AとBの代表値に差があるだけでは仮説が成り立ちません.
別に,帰無仮説{μA=μB,またはμA=μC}を知りたいときは(または,となっている),多重検定の問題が発生し,ダネットの多重比較法が適用となります.
他に,2標本t検定を,体重,身長,握力に適用したいとき,「3回検定するのだから,多重検定の問題?」という考えがありますが,体重と身長と握力の母集団が同じと考えるなら多重検定の問題です.いや,普通に考えて体重と身長と握力の母集団は違うだろう,と考えるなら,多重検定の問題はなくなります.多くは後者と思います.
そして,「いずれにしても検定を繰り返すのだから,とにかく多重検定の問題を考えて,回避する手法を使えば問題は起こらないはずだ.おそらく差が出難い結果(保守的)だろうから,無難な方法だ」と主張する人がいますが,これは根本的な統計的検定の意味を理解していない人です.とにかく保守的にする場合は,大きな誤りを招く危険があります(永田ら,1997).
■ 多重検定の問題の対策法は?
良く知られる群間差の比較では,Tukey法やシェフェ法,ゲームスハウェル法,スティールドゥワス法で対応できます.これらの手法は,全ての群間で差の検定を行います.
他にも,ダネット法(例えば対照群と治療A,治療B群の差をみたい)やウィリアムス法(何らかの規則に従って複数群を並べたときに,徐々に大きくなる・小さくなる仮説をもっているとき)といった比較を限定する手法もあり,自分の仮説に合わせて使い分ける必要があります.
他の検定であれば,p値を補正するボンフェローニ法や,Holm法,Shaffer法が適切です.これらは,ボンフェローニ法>Holm法>Shaffer法の順に保守的になります.「とにかく保守的にすれば問題ない」という考え方は誤りと考えると,できるだけShaffer法,やむを得ずHolm法を適用すれば良いでしょう.
改変Rコマンダーでは,上述の手順に従って最も適切な手法を選べるようになってますが,R自体のプログラムの制約でShaffer法が使えず,やむを得ずHolm法を使用しているものもあります.
また,正規分布に従うかの検定(シャピロウイルク検定)では,解析の仮定によって,Holm法を選べるようにしています.
1つの例外(許容される例)を挙げておきます.
3群の比較で分散分析で有意差があった後にFisherのLSD法または2標本t検定を行うとき
です.
始めに断っておきますが,FisherのLSD法が多重比較法の条件を満たしていないゆえ,2標本t検定に置き換えても成立します.
分散分析で帰無仮説{μA=μB=μC}を検定します.これがp<0.05のときは,{μA≠μB=μC},{μA=μB≠μC},{μA≠μB≠μC}の3つが考えられます.少なくとも{μA≠μB=μC},{μA=μB≠μC}のときは,すでに帰無仮説が{μB=μC}または{μA=μB}しか残りません‡(「母集団は同一かどうか」が判断のカギ).ですので,2標本t検定を行っても問題がありません.これはHolm法の判断と同じです.従って,3群の比較に限定してpost-hoc検定を行うのであれば,分散分析で有意差があった後に2標本t検定を行っても,何ら問題はありません.
.
‡ {μA≠μB=μC}のときは,μA≠μBなので帰無仮説{μB=μC}ならμA≠μCとなり,帰無仮説は1つだけ残ります.他同様.
■ 参考資料
●対馬栄輝:理学療法の研究における多重比較法の適用について.東北理学療法学 (13): 30-37, 2001.
●対馬栄輝:統計的検定資料①多重比較法(texで作成したため一部文字化けあり)