まず一言で

結論: 統計手法は「どれが高級か」ではなく、「研究の問いに合っているか」で選ぶ。平均差を見たいのか、順位の偏りを見たいのか、3群以上を比べたいのか、2つの測定法が一致するかを見たいのか、診断モデルの閾値性能を見たいのかで、使う道具は変わる。

MRI研究では、画像から得た定量値、セグメンテーション指標、血流指標、AIモデルのスコア、読影者間の評価など、さまざまなデータが出ます。統計はそれらを「正しそうに見せる」ためではなく、問いと限界を明確にするために使います。

この記事の立ち位置

公開文献と一般的な統計原理にもとづく教育用記事です。個別施設、非公開データ、個人を特定し得る情報は含めていません。実解析では研究デザイン、サンプルサイズ、欠測、外れ値、多重比較を必ず確認してください。

研究統計の地図
図1. 研究統計は、データの要約、群間比較、一致・診断性能、次元削減に大きく分けて読むと迷いにくい。

分布・平均・SD: まずデータの形を見る

最初に見るべきものはp値ではありません。分布の形、外れ値、平均、中央値、標準偏差(SD)、四分位範囲です。平均だけを見ると、外れ値や歪んだ分布に簡単に引っ張られます。

正規分布と標準偏差
図2. 正規分布、平均、SD、外れ値、有意差の関係。p値は「差の大きさ」そのものではない。
SD = √( Σ(xᵢ - x̄)² / (n - 1) )
xᵢ
個々の測定値。例: ある被検者の流量、T1値、AIスコア。

平均。データの中心を表すが、外れ値に弱い。
n - 1
標本から母集団のばらつきを推定するための補正。
SD
平均の周りにどれくらい散らばるか。単位は元データと同じ。
数式が苦手な人向け: SDは「平均からの距離の典型値」

SDは、各データが平均からどれくらい離れているかを二乗して平均し、最後に平方根で元の単位に戻したものです。ばらつきが大きいデータほどSDは大きくなります。

論文では `mean ± SD` と出てくることが多いですが、それだけで分布がきれいとは限りません。ヒストグラム、箱ひげ図、Q-Q plotも見ると、検定選択の判断が安定します。

t検定・Mann-Whitney U検定・ANOVA: 差をどう見るか

群間比較では、まず「何群か」「対応があるか」「連続値かカテゴリか」「正規分布に近いか」を確認します。検定名を暗記するより、この分岐を覚えた方が実務で強いです。

統計検定の選択フローチャート
図3. 検定選択の目安。2群、3群以上、対応の有無、連続値/カテゴリ、分布の形で入口が変わる。
手法見るもの使う場面読み間違い
t検定2群の平均差連続値、独立2群、分布が大きく歪んでいないp値だけで効果の大きさを語る
対応ありt検定同じ対象の前後差・左右差before/after、同一対象内の2条件比較独立2群と混同する
Mann-Whitney U検定2群の順位の偏り分布が歪む、外れ値が強い、順序尺度常に「中央値差の検定」と断定する
ANOVA3群以上の平均差3条件以上の連続値比較有意でも、どの群が違うかは事後検定が必要
Kruskal-Wallis検定3群以上の順位の偏り非正規・順序尺度の3群以上群間の形が大きく違う時の解釈を単純化する
カイ二乗/Fisher正確検定カテゴリ比率の差有無、成功/不成功、陽性/陰性など期待度数が小さい時にカイ二乗へ寄せすぎる

有意差は「重要差」ではない

p値は、帰無仮説のもとで観測された差以上のものがどれくらい起こりにくいかを表します。差の大きさ、臨床的意義、再現性、測定誤差は別に読む必要があります。p値、効果量、信頼区間、図をセットで見るのが基本です。

Bland-Altman: 相関ではなく「一致」を見る

2つの測定法を比べる時、相関が高いだけでは「一致している」とは言えません。両者が一緒に増えるだけなら相関は高くなりますが、片方が常に大きく出る系統誤差は残り得ます。

Bland-Altman plot
図4. Bland-Altman plotは、2法の平均を横軸、差を縦軸にして、biasと95%一致限界を見る。
差 = 方法A - 方法B
平均 = (方法A + 方法B) / 2
95%一致限界 = bias ± 1.96 × SD

MRIでは、新しい計測法、AI自動計測、手動計測との比較、読影者間・装置間の比較でよく出ます。見るべき点は、biasが小さいか、一致限界が研究目的に対して許容できるか、測定値の大きさに応じて差が増える傾向がないか、外れ値の理由が説明できるかです。

ROC/AUC: 診断性能と閾値を読む

ROC曲線は、スコアのカットオフを動かした時の感度と特異度のトレードオフを可視化します。AUCは、その曲線の下側面積です。1.0に近いほど識別性能は高く、0.5はランダム分類に近いという読み方をします。

ROC曲線とAUC
図5. ROCはカットオフを動かして、感度と特異度のバランスを見る。AUCは閾値非依存の識別性能指標。
感度 = TP / (TP + FN)
特異度 = TN / (TN + FP)
TP
陽性を正しく陽性と判定。
FN
陽性を陰性と見逃す。
TN
陰性を正しく陰性と判定。
FP
陰性を陽性と誤判定。
実務の読み方: AUCが高くても、運用閾値は別問題

AUCは全閾値をまとめた性能指標です。しかし実際の運用では、見逃しを減らしたいのか、過剰検出を減らしたいのかでカットオフは変わります。AUCだけでは、最終的な臨床運用の閾値は決まりません。

論文を読む時は、AUC、感度、特異度、信頼区間、検証データの独立性、クラス不均衡、外部検証の有無をセットで確認します。

PCA: 多変量を圧縮して構造を見る

主成分分析(PCA)は、多数の特徴量を、分散が大きい方向へ回転して少数の軸にまとめる方法です。MRIでは、radiomics、多数の血流指標、形態指標、テクスチャ特徴量などを探索的に見る時に使えます。

PCAと主成分
図6. PCAは、特徴量空間のばらつきが大きい方向を主成分として取り出し、データ構造を少数軸に圧縮して見る。
PC1 = w₁x₁ + w₂x₂ + ... + wₚxₚ

主成分は、元の特徴量の線形結合です。PC1は最も分散を説明する方向、PC2はPC1と直交しながら次に分散を説明する方向です。

解釈しすぎ注意

PCAは教師なしの次元削減です。グループが分かれて見えても、それだけで病態や機序を証明したことにはなりません。前処理、標準化、外れ値、寄与率、負荷量、交差検証を確認します。

論文でよく見る統計用語早見表

用語一言でMRI研究での読み方
正規分布平均を中心に左右対称の釣鐘型分布t検定やANOVAの前提を考える入口
分散平均からのズレの二乗平均ばらつきの大きさ。SDの平方
SD標準偏差。ばらつきの典型幅測定値と同じ単位で散らばりを読む
SEM平均推定の不確実性SDより小さく見えるため、ばらつき表示と混同しない
95%信頼区間推定値の不確実性の幅効果量やAUCとセットで読む
p値帰無仮説のもとでの起こりにくさ差の大きさではない
効果量差や関連の大きさ臨床的・生物学的な意味を読む軸
多重比較検定を増やすほど偶然の有意差が増える問題探索解析では特に要注意
相関2変数が一緒に変わる程度一致とは違う。Bland-Altmanと役割が異なる
回帰目的変数を説明変数から予測・説明する交絡、過学習、外部検証を確認

文献紹介

Student 1908

t検定の源流となる小標本の平均に関する古典的論文です。小さいサンプルでも平均差をどう扱うか、という現代の医用研究にも残る問題意識の出発点です。

Mann and Whitney 1947

Mann-Whitney U検定の古典文献です。順位にもとづいて、片方の群がもう片方より大きく出やすいかを扱う考え方の原点です。

Bland and Altman 1986

2つの測定法の一致性を評価する方法として、biasと一致限界を可視化する考え方を広めた重要文献です。

Hanley and McNeil 1982

ROC曲線下面積(AUC)の意味と使い方を医用画像・診断性能の文脈で整理した古典的文献です。

Claim / Evidence / Limitation

Claim

研究統計は、問いの種類に合わせて道具を選ぶ地図として読むと理解しやすい。

Evidence

t検定、Mann-Whitney U、Bland-Altman、ROCの古典文献と一般的な統計原理。

Scope

MRI研究者向けの公開教育用概説。個別研究の解析計画書ではない。

Limitation

実解析では、研究デザイン、サンプルサイズ、欠測、交絡、多重比較、前処理を別途確認する必要がある。

Zettelkastenへ戻す問い

  • t検定とMann-Whitney U検定の違いを、平均差と順位の偏りとして説明できるか。
  • p値、効果量、95%信頼区間を別々に読めるか。
  • Bland-Altmanで「相関が高いのに一致しない」例を説明できるか。
  • ROC/AUCと実運用のカットオフ選択を分けて説明できるか。
  • PCAの主成分を、病態そのものではなく「分散の方向」として説明できるか。