【第6回】マイナスからはじめる生物統計学
統計的検定の仕組み(3) ~仮説~
1. 本当に同じなのか?
かなり前の話になりますが、私の大好きなプロ野球チームがある特定のチームに対し、1シーズンで4勝22敗と大きく負け越しました。例年そのチームとは成績に大差が無く、共に優勝には程遠いという意味では「きっと同じぐらいの強さだろう」と思っていたので、正直かなりのショックを受けました。もしも同じぐらいだって言うならば、こんな結果にはならないだろう…と、今考えれば「現在の職業を予見させる(?)」出来事だったなと思うところです。現在の職業は、一応生物統計学を教える立場です。
2. 統計的検定の「お約束」
第5回までに説明させていただきました、生物統計学としては最も馴染みの深い(?)t検定ですが、かなり機械的に「平均値の差をサンプル数(逆数ですが)とバラツキ(標準偏差)で割り算」して、出てきた値を標準正規分布で参照すればp値が求まるというところまでの説明だったと思います。ほとんどの皆様は統計ソフトウェア(一応Excelも含む)を用いてt検定を行うと思いますが、統計ソフトウェアはデータを用意してセットすれば(実はこれが結構難しいのですが)ここまでの知識も全て不要です。某CRO*の事業部長が「CROに統計的知識は不要である」と言ってのけるのも何等不思議ではありません。
(連載の第1回でお話させていただきました「インスタント教材」では、ほとんどがこのあたりで話が終わっています)
もちろん、t検定には不向きな、正規分布していないようなデータや非連続なカテゴリデータ(例:通知表の5段階)でも、ソフトウェアに入れればp値まで出してくれますので、一応の結果として表示はされます。かのMicrosoft Excelにも以前から「分析ツール」なる機能は搭載されており、t検定は当たり前のように実施可能です。それどころか、関数電卓と正規分布表さえあれば、最低限有意水準(一般的に0.05)未満であるかどうかの判断ぐらいは可能です。ある調査によれば、80年代後半~90年代の日本の医学研究は9割以上がt検定とχ2検定だったなんてお話もありますので、恐らく何の疑問も持たずに関数電卓や統計ソフトウェア叩いていた時代もあったのかも…などと勝手に思っております。そういえば、Excelにはt検定の機能はあるけど、正規性の確認の機能は無いよなぁ…って、思っている方、どのぐらいいますかね?実は正規性の確認なんてしないまま分析ツールを用いていた(いる?)人、結構いるのでは無いでしょうか?t検定には頑健性(正規性など無視しても結果は信用できる性質)があるから「結果オーライだ!」というご意見もありますが、そこまで理解して分析ツールを用いている人は、それほどいないのではと思う次第です。
お約束1) 定量的データ
t検定は定量的なデータ(連続量)に対し用いられます。通知表の5段階や、「1.非常に良い~5.非常に悪い」など、アンケートの選択肢のようなカテゴリデータに用いるのは適切ではありません。ただし、非常に細かいカテゴリデータなどに対しては用いられることもあります。
お約束2) 正規分布している
データが正規分布している必要があります。正規性の確認方法はいくつかありますが、最も単純な方法は、ヒストグラム**を描くことです。医学系の論文などではここまでされることはありませんが、基本的な方法です
ほとんどの場合はShapiro-WilkやKolmogorov Smirnov検定により判断します。こちらは統計ソフトウェアの力を借りる必要がありますが、p<0.05のとき「正規分布していない」と判断して下さい。その場合はt検定を用いるのは適切ではありません。
コメント
/
/
/
コメント