統計学:t分布・カイ二乗分布およびそれに対応する検定

日本人の成人女性の身長の平均値は約160センチ、S.D.は約10センチの正規分布として知られている。このとき、あなたが明日会う成人女性の身長を予言しておきたいとしたら、それを95パーセント当てるためには、どの範囲を予言したらいいだろうか。

小島88pより引用

答)μ(平均値)、標準偏差(S.D.)σのときこのような不等式を考えられる。

(日本人成人女性の身長統計を中心極限定理に基づく正規分布としたとき)

μに160センチを、σに10センチをそれぞれ代入しxについての不等式を解くと…
求めたい答えは140.4センチ≦予言すべき値の範囲≦179.6センチといえる。

t分布ってのは、正規分布(区間で区切って面積を見ていけば、この範囲で妥当性の推定ができますね)を変則的にさせたもので、この点ではカイ二乗分布も同じです。それぞれ特徴的な信頼区間でもってして、推定方法予測をします。この点では正規分布と変わりはありませんが、区間のとりかたにかなりの重要性があって、図になるわけです。正規分布に可塑性をもたらしたのがt分布やカイ二乗分布といえるでしょう。QQプロットってのは主として正規分布のありかたを四分点で直線状になるかどうかということをみるもので、それぞれF分布とかβ分布とかに対応できる判断となるためのプロットのことを言います。ヒストグラムの形を考えられるんですね。

帰無仮説と有意水準およびp値についてはかなり詳しく言っておきたいところですが、 これにはP値至上主義についての疑問点もあり、統計学が経験科学だということがよくわかる事例と言えるのではないでしょうか?よく考えればわかるように経験科学となる統計学に特定の水準だけを持ち出すとそういう論文には危険性があることなど誰もが知っていることです。ですから、この定義に惑わされないようにするのが重要でしょう。

p値と有意水準の定義より,p値<有意水準⟺帰無仮説を棄却となります。つまり,帰無仮説が棄却されるような有意水準の限界値がp値です。

アメリカ統計学会はこのp値至上主義となる論文に否定的な見解を示していて(http://www.anlyznews.com/2016/03/p.html)、フィッシャーなどの統計の巨星がいろいろと問題提起しているということまでココに書いてあります。統計学には様々な理論があるので、ほかの手法を使うのもあっていいのです。特にMSやGoogleが使うベイズ統計学に重きが置かれているのが最近のトレンドだそうです。

信頼区間、信頼性区間、予測区間の推定に重点を置いたり、ベイズ法を用いたり、尤度比もしくはベイズ因子のような代替となる根拠の評価基準を用いたり、決定理論やFDRを用いる事を推奨している。

上記同URLより引用

※FDR:false discovery rates

p値だけを基準にしてそれが有意になってほしいがための「p-ハッキング」は現代の科学論文でも蔓延しているらしく大きな懸念が示されるということをアメリカではすでに古くから指摘されてきました。そういうわけで統計的に医学の学問を疫学として分析することはあってもそれが信用に値しないソースになりがちだという批判は厳しく我々が受け止めなければならないでしょう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA