企画:島谷健一郎(統計数理研究所)
著者:森元良太(北海道医療大学),島谷健一郎(統計数理研究所)
1.統計を使うということ
科学研究における統計解析という作業へのイメージとして,パソコンによる計算を抱く会員は多いだろう.そして,計算を終え数値を得たら,統計解析作業を完了したと思いがちである.しかし,科学研究において肝要なのは,統計解析に基づく推論と考察である.計算完了は中途の1段階でしかない.さらに,計算の大半をパソコンのソフトが行う今日,推論の立て方こそ時間と労力をかけて習得すべき課題である.それが本集会の表題にある「計算より概念」を優先する統計学習である.
推論には大きく演繹と帰納がある.演繹は前提が正しければ結論が必ず正しくなる推論である.数学や物理学で多用されており,論理通りに流れていくため(数式は難解でも)推論としては習得しやすい.一方,帰納は前提が正しくても正しい結論が得られるとは限らず,おのずと限界をもつ.帰納はデータと統計解析を用いる科学研究では不可欠だが,しばしば論理の飛躍や逆転,屁理屈や当て推量を招く.
このような統計解析に基づくとデータから何がわかるだろうか.仮説やモデルを受け入れるかどうか,信頼できるかどうか,支持できるかどうか,等々,さまざまなことがわかるのだが,それぞれの問いに対し,異なる考え方に基づく統計解析が対応する.データから何が言えるかは,統計解析をどう理解し使用するかによって異なる.
そこで,そうした統計解析の意義に関する自由集会を企画した.帰納推論の背負う宿命や限界の認識が,遠回りだが統計解析の適切な理解や使用へとつながる.本稿では,森元の講演に沿って,頻度主義,ベイズ主義,尤度主義という3つの考え方の概要を紹介する(モデルベースの統計については,島谷(2012)などを参照).
2.有意性検定を用いる頻度主義
最も普及している統計解析のひとつに有意性検定がある.有意性検定は,帰無仮説を棄却する基準をあらかじめ決めた上で実験を行い,データから求めたp値をその基準と比較して帰無仮説を棄却するかどうか判断する方法である.有意性検定は仮説検定とよく混合されるが,二つは異なる.相違点をみる前に,両者の共通点を確認しておこう.有意性検定と仮説検定はどちらも,実験を何度も繰り返して得られた頻度データが前提となっている.それゆえ,両者の背後にある哲学的な考え方は「頻度主義」と呼ばれる.頻度主義の統計解析では,一回こっきりの実験や調査からは仮説について何も言えない.
では,有意性検定から何が言えるだろうか.この理論は多くの誤解を受けてきたので,ここでは考案者ロナルド・フィッシャーの意図を汲みながら解説する.「一般に有意性検定は,帰無仮説から計算される仮説的な確率に基づく.検定からは,現実の世界に関する確率的な命題は何もでてこない.ただ,検定する仮説を採択することに対する抵抗の,合理的な十分よく定義された尺度が導かれるだけである」(Fisher 1956, p.44).つまり,有意性検定は仮説をどの程度棄却するかを測っている.仮説を棄却するかどうかは研究者の行動決定に下す判断であり,仮説の真偽や実在性についてではない.有意性検定で言えるのは仮説の棄却に関する判断であり,それ以外の役割を課すことは木に縁りて魚を求むというものだ.
ここで注意点がある.「個別に得られた有意な結果でも再現方法のわからないものは,さらなる調査まで未解決のまま保留にすべきである」(Fisher 1929, p.191).一方,「実験結果を判断するための有意性検定の妥当性を保証するには,ランダム化について簡単な配慮を行えば十分である」(Fisher 1935, p.24).ランダム化は標本内のどの個体にどの処置を割付けるかをランダムに決めることである.フィッシャーは一回の実験や調査で得られたデータを有意性検定にかけてもせいぜいその実験や調査の安定性しか測れないことを自覚しており,ランダム化を行わなければ「有意性検定は一切無効になる」(Fisher 1925, p. 250)と明確に述べている.昨今,p値を用いた有意性検定への批判が再熱しているが,批判の前に,自身の研究がきちんと実験計画されているかどうかを確認するべきだろう.
3.仮説検定を用いる頻度主義
有意性検定とよく混同されるのが仮説検定である.仮説検定は,イェジ・ネイマンとエゴン・ピアソンがフィッシャー流の有意性検定を変形した理論である.先述したように,この背後にある哲学的な考え方も頻度主義である.仮説検定では,まず帰無仮説と対立仮説を立てる(ちなみに,有意性検定では対立仮説を立てない).そのため,いわゆる2種類の誤りが生じうる.仮説検定では次に2種類の誤りに優先順位をつけるのだが,その際にネイマンらは金銭面や倫理面を考慮する.例えば,効果がないにもかかわらず新薬の開発を進めると,金銭面や倫理面における損失は大きい.ネイマンらのこうした判断は経済や倫理の問題であり,論理や客観性の問題でも,仮説を信じるかどうかの問題でもない.ネイマンの言葉を借りれば,「2種類の誤りの重要性が同じでないことはごく一般的に生じる.多くの場合,誤りの相対的な重要性は主観的なものである.(中略)この主観的要素は統計学の外にある」(Neyman 1950, p.263).そして,仮説検定により「仮説Hを採択することは,行為Bよりも行為Aをとるよう意思決定することだけを意味する.これは仮説Hが真だと必ず信じるという意味ではない」(ibid., p.259).ネイマンらにとって仮説検定は意思決定の理論であり,仮説を採択するかどうかの行為を決めるものである.
フィッシャーは,ネイマンとピアソンによる仮説検定を忌み嫌っていた.フィッシャーは科学の方法論としての検定理論を構築するため,論理的側面にこだわり,統計解析に非科学的要素を極力入れないようにした.倫理や経済など論外である.有意性検定だけでは予備実験のようなもので,実験計画法に組み込んでより科学的なものにする.それに対しネイマンとピアソンは,倫理・経済的な側面を重視した意思決定の手段としての検定理論を構築しようとしたのである.
4.ベイズ主義
ベイズ主義は,確率や証拠,合理性などに関する問題に,ベイズの定理を用いた解釈を与える立場である.頻度主義とは異なり,1回の実験データからでも何かを言うことができる.ベイズ主義は,事前確率をデータが得られる前に仮説が正しいと信じる度合い,事後確率をデータが得られた後に仮説が正しいと信じる度合いと解釈する.そしてベイズの定理は,データが得られたときに仮説が正しいと信じる度合いを合理的に更新するルールとして解釈される.
ベイズ主義では,データが得られたとき,仮説についての確率が上がれば(事後確率が事前確率より大きくなれば),仮説が「確証された」という.逆に,事後確率が事前確率より小さくなれば,仮説は反確証されたという.注意すべきは,確証や反確証は検証や反証と異なることである.検証はデータにより仮説の正しさを示すことで,反証はデータにより仮説の誤りを示すことである.ベイズ主義では,仮説の真偽には踏み込まず,あくまで仮説の信頼性を問題にする.
ベイズ主義には古くから多くの批判が浴びせられてきた.事前確率の付与に関する難点が代表的である.事前確率を客観的に決められることもあるが,例えば,「ある鳥類の個体数減少の主要な要因は人為攪乱である」,「渡り鳥の渡来日が変化したのは地球温暖化のためである」といった仮説を信頼する度合いなど,客観的に決められそうにない.科学に主観性が入り込むことに懐疑的な研究者には,ベイズ主義の確証の理論は受け入れにくいかもしれない.
5.尤度主義
仮説の尤度とは,その仮説の下で与えられたデータが得られる確率という数値のことである.尤度が高ければそのデータを生じやすいのだが,仮説を高く評価できるわけではない.一つの仮説の尤度からは何も主張できない.尤度は複数の仮説の相対評価にのみ用いる.尤度主義では,データが仮説1より仮説2を支持するのは,そのデータの下での仮説1の尤度が仮説2の尤度より大きいときであり,かつそのときに限られる.この尤度原理によると,尤度のより高い仮説は「データにより支持された」と解釈される.尤度主義から言えることは,ベイズ主義のような一つの仮説の信頼性ではなく,データによりどの仮説が支持されるかである.
尤度主義は,ベイズ主義とは異なり事前確率を用いないので,主観性が紛れ込まなくてすむ.ただ,答えられるのは常に複数の仮説の間の相対評価でしかない.検討する仮説がどれも真理からほど遠いなら,それらを相対比較しても何も得られないという不安がつきまとう.
6.結語
以上のように,統計解析の種類により答えられる問いは異なる.どの統計解析を用いれば,何がわかるのかを意識しながら使用しなければ,せっかく苦労して収集したデータも無意味になってしまう.
ここまで読まれた方は,次のような疑問を抱いていないだろうか.
- ランダム化を施していない野外の鳥類の観察データに有意性検定は使えない?
- 仮説検定は意思決定のためで対立仮説の支持ではない?
- 赤池情報量規準(AIC)などで行う仮説(モデル)の比較はどこに入る?
- ベイズ主義に従ってモデルの信頼確率を求めている研究事例を本学会で見ないのはどうして?
科学哲学はこうした疑問に答えようとしている.統計数値を得た後の推論を立てられないでいる会員や数学に苦手意識の強い会員は,一度,数式や計算でなく,科学哲学の視点から見た統計解析の考え方を学習してみてはどうだろう.教員はそんな教育機会を提供することを考えてはどうだろう.
引用文献
- Fisher R (1925) Statistical Methods for Research Workers. Oliver & Boyd, London.
- Fisher R (1929) The Statistical Method in Psychical Research. Proceedings of the Society for Psychical Research 39: 189–192.
- Fisher R (1935) The Design of Experiments. Oliver & Boyd, London.
- Fisher R (1956) Statistical Methods and Scientific Inference. Oliver & Boyd, London.
- Neyman J (1950) First Course in Probability and Statistics. Henry Hold & Company, New York.
- 島谷健一郎 (2012) フィールドデータによる統計モデリングとAIC.近代科学社,東京.