医療統計
診療情報管理士の勉強をしているときの覚書。
統計は目標設定が重要。
統計分析は「変数間の関係性」を論理的に検証するために行う。
明確な「目標」があるからこそ、データの中から検証すべき「関係性」が定まる。
そして、その「関係性」を統計的に検証することで、最初の「目標」に対する客観的な答えが得られ、次のアクションへと繋がっていく。
つまり、アクションに繋がらない分析は無価値。
分散と標準偏差
データが「正規分布: N(μ, σ²)」のとき標準偏差で散布度を表す。
平均値: μ(ミュー)
分散: σ²(シグマの2乗)
標準偏差: σ
分散 σ²
分散はデータが平均値からどれくらい散らばっているかを示す。
平均値からの距離が正と負の場合でも計算できるように、平均値からの距離を2乗してから、それらを平均したものを「分散」と名付けた。
数学上、計算しやすくなったが2乗するため直感的にわかりにくい。
標準偏差 σ
標準偏差は分散の平方根。
分散が直感的にわかりにくいため、元の単位に合わせて分散を平方根したものを「標準偏差」と名付けた。
「標準偏を2乗したものが分散」と言われるとわかりにくい。
分散 → 標準偏差なので「分散を算出し、元のデータに合わせて平方根したものが標準偏差」。
変動係数(CV)= 標準偏差 ÷ 平均
偏差値 = (個々のデータ - 平均) ÷ 標準偏差 × 10 + 50
偏差値は日本と韓国の受験業界でしか使われない。
平均値と中央値と四分位範囲
データのばらつきが比較的小さく、外れ値がない(または無視できる)場合は、平均値を使うのが一般的。
データが正規分布でない場合に、四分位範囲でデータの散布度を表すことが多い。
平均値 μ
全てのデータを「ならした」ときの値。
極端に大きい/小さい値(外れ値)に引っ張られやすい。
中央値
データを大きさ順に並べたときの「ど真ん中」の値。
外れ値の影響を受けにくい。より実感に近い中心を表すことがある。
四分位範囲
データの真ん中50%が、どれくらいの範囲に収まっているかを示す指標。
中央値が「データのど真ん中の点」を示すのに対し、四分位範囲は「データのど真ん中あたりの幅(ばらつき)」を示す。
上下25%の極端なデータは計算から除外するため、外れ値の影響を受けづらい。
「ごく普通の、真ん中あたりの人たちがどれくらい固まっているか、あるいはばらけているか」を安定して見ることができる。
推測統計
サンプル(標本)を調べて、全体(母集団)の様子を推測するための技術。
母集団が正規分布の場合、平均と標準偏差はギリシャ文字で表記する。
標本の平均と標準偏差は英字で表記する。
医学・医療では「95%信頼区間」、「99%信頼区間」などの区間がよく用いられる。