自然科学・産業の世界で、データの再現性を軽視するという風潮が現れ、これらが原因で多くの問題が発生している。このような状況の中、実験データを正しく扱うことの重要性が改めて認識され、盛んに議論がなされている。しかしながら、実験データの扱いは、数理統計や確率論等の数学に基礎を置いているため、実験者にとって基礎から理解するのは容易ではなく、統計ソフトをブラックボックスとして使用しているのが現状であろう。
本講演では、簡単な数学の理解からスタートしてその統計的な意味を解説し、実際にPC等で実例を計算して理解を深めることを主眼とした。
具体的には、再現性のある実験・分析データを取得するための考え方や得られたデータの正しい解釈について、参考図書 (「実験データを正しく扱う方法」化学同人、2007) を参照しながら解説していく。
特にデータの統計解析【1) データの棄却、2) 平均とエラーバー、3) 誤算伝播、4) 重みつき最小二乗法、5) 検定】について、注意点やコツ等、ポイントを絞って説明する。
- 数理統計学の基礎
- 実験データの杜撰な取り扱いが招いた科学界を取巻く問題点を実例を示して指摘し、それらについての対策と正しいデータの取扱いの必要性、考え方ついて述べる。2項分布を基礎として数理統計学の初歩の数学を概観する。
- データの棄却
- 異常なデータを「なきもの」にする前に!
一つのデータがとんでもなく外れている場合に、このデータはなかったことにしておこうというのは正しくない。データの棄却を統計的な意味を含むQ-testによって可能かどうかを判断する。
- 検定
- 信頼度
- 平均値とエラーバー
- 少ない回数 (3~5回) の測定から再現性を求めるにはこの方法しかない!
複数回測定したデータからStudentのt分布を用いて、平均とエラーバーを求め、同時に有効数字・有効桁をユニークに確定する。
- 正規分布
- Studentのt分布
- 平均値:最も確かな値
- 測定回数、自由度
- 不偏分散
- 標準偏差
- 信頼度
- エラーバー
- 有効数字・有効桁
- 誤差伝播 (ごさでんぱ)
- 2つの測定データからある値を求める時に、片方がいい加減だとそちらに引っ張られる!
最終的に求めたい値が一つの測定結果から得られるとは限らない。誤差をもつデータ同士の演算 (加減乗除等) で誤差がどのように伝播するのかを求める。
- 誤差伝播
- 誤差をもつ測定値同士の和
- 定数と測定値とのかけ算
- 測定値同士のかけ算
- 希薄溶液調製時にともなう誤差の見積もり
- 重み付き最小二乗法
- 検量線やあるデータ群を理論曲線にフィットするときに、エラーバーの重みを考慮して最小二乗法を用いないと間違いをおかす危険性がある。ここではその注意点を考察する。
- 線形回帰
- 重み付け
- 重み付き平均
- 重み付き最小二乗法:線形
- 重み付き最小二乗法:非線形
- 回帰から得られるエラーバー
- 非線形回帰の場合の注意点
- 検定や検出限界
- 白でも黒でもないグレーなゾーンがある!
ある仮説を統計的なデータで検証する場合、その方法として“差がある”ことを確認するために、“差がない”という前提 (帰無仮説) を統計的にありえないことを示す。データによる検定の使い分けにも言及する。
- 仮説検定
- 帰無仮説
- 有意差検定
- t検定
- Q-test
- 検出限界