【第11回】マイナスからはじめる生物統計学
正規じゃない?比較
1.とにかくt検定?
知っている検定と言えばこれ、初心者用の書籍の第2章と言えばこれ(第1章は平均値や標準偏差など)…というぐらい有名な検定です。調査によれば、1979年の某和文医学雑誌においては88論文/136論文…実に64.7%はt検定だったそうです1)。古くからこんなに、日本の医学研究に浸透している手法ですので、確かにχ2検定を「エックス二乗検定」と呼んでしまう方が知っていても不思議ではありません。t検定の理論や適用条件に関しましては第4回をご参照頂くとして、少し式だけ復習してみましょう。
こちらはWelchのt検定になりますが、分子は平均値の差を見ているだけですね。分母はというと、標準偏差の2乗(=分散)を症例数で割ったものを足して平方根を求める…これなら電卓があれば簡単に計算できますね。ですが、正規分布していないデータや順序カテゴリデータなどに用いるのは不適切とされ、少し統計をかじった方が、学会の会場などで、「そのデータは正規分布しないので、t検定は適切ではありません」などと嚙みついている場面も散見されます2)。
2. ノンパラメトリックとは?
ならば、その「適切な方法」とは何でしょうか?正規分布は一つの統計モデルであり、例えばt検定は正規分布を前提としておりますので、パラメトリック(parametric)な手法です。一方、接頭語に対比のnonが付与されたノンパラメトリック(Non-parametric)は、母集団について何らかの分布に従っていない(想定できないも含む)という意味であり、必ずしも「正規分布していない」という意味ではございません。ですが、生物統計学においては多くの理論が正規分布を前提としているため、何時の間にか「ノンパラメトリック=正規分布ではない」のようになってしまったようです3)。ならば、正規分布が想定できない中で実施可能な検定とは何でしょう?そもそも連続量ではない、当初から順序カテゴリデータの場合などは、問答無用でノンパラメトリックな検定を実施しなければなりません。順序カテゴリデータに対するt検定の実施は、今でも各所で散見され、同時に各所で噛みつかれて(?)いる、統計的検定の誤用における代表格のような存在です4)。
コメント
/
/
/
コメント