医療統計
診療情報管理士の勉強をしているときの覚書。 統計は目標設定が重要。 統計分析は「変数間の関係性」を論理的に検証するために行う。 明確な「目標」があるからこそ、データの中から検証すべき「関係性」が定まる。 そして、その「関係性」を統計的に検証することで、最初の「目標」に対する客観的な答えが得られ、次のアクションへと繋がっていく。 つまり、アクションに繋がらない分析は無価値。 分散と標準偏差 データが「正規分布: N(μ, σ²)」のとき標準偏差で散布度を表す。 平均値: μ(ミュー) 分散: σ²(シグマの2乗) 標準偏差: σ 分散 σ² 分散はデータが平均値からどれくらい散らばっているかを示す。 平均値からの距離が正と負の場合でも計算できるように、平均値からの距離を2乗してから、それらを平均したものを「分散」と名付けた。 数学上、計算しやすくなったが2乗するため直感的にわかりにくい。 標準偏差 σ 標準偏差は分散の平方根。 分散が直感的にわかりにくいため、元の単位に合わせて分散を平方根したものを「標準偏差」と名付けた。 「標準偏を2乗したものが分散」と言われるとわかりにくい。 分散 → 標準偏差なので「分散を算出し、元のデータに合わせて平方根したものが標準偏差」。 変動係数(CV)= 標準偏差 ÷ 平均 偏差値 = (個々のデータ - 平均) ÷ 標準偏差 × 10 + 50 偏差値は日本と韓国の受験業界でしか使われない。 平均値と中央値と四分位範囲 データのばらつきが比較的小さく、外れ値がない(または無視できる)場合は、平均値を使うのが一般的。 データが正規分布でない場合に、四分位範囲でデータの散布度を表すことが多い。 平均値 μ 全てのデータを「ならした」ときの値。 極端に大きい/小さい値(外れ値)に引っ張られやすい。 中央値 データを大きさ順に並べたときの「ど真ん中」の値。 外れ値の影響を受けにくい。より実感に近い中心を表すことがある。 四分位範囲 データの真ん中50%が、どれくらいの範囲に収まっているかを示す指標。 中央値が「データのど真ん中の点」を示すのに対し、四分位範囲は「データのど真ん中あたりの幅(ばらつき)」を示す。 上下25%の極端なデータは計算から除外するため、外れ値の影響を受けづらい。 「ごく普通の、真ん中あたりの人たちが...