MRI研究のサンプルサイズ設計

まず一言で

結論: サンプルサイズは「相場」ではなく「問い」から決まる。検出したい差、測定ノイズ、許容する誤判定、必要な信頼区間の幅、対応あり/なし、外部検証の有無を決めて、初めて必要なn数を議論できる。

MRI研究では、症例を集めるコストが高く、撮像条件、装置差、読影者差、セグメンテーション差、再構成条件が結果に影響します。だからこそ、n数は「なんとなく30」ではなく、研究の目的に合わせて設計する必要があります。

この記事の立ち位置

公開文献と一般的な統計原理にもとづく教育用記事です。個別研究の正式な統計解析計画書ではありません。実際の研究では、主要評価項目、解析単位、欠測、脱落、倫理要件、施設差、外部検証を専門家と確認してください。

n=30神話を外す

n=30は、中心極限定理や実務上の目安と混ざって語られがちですが、MRI研究の十分性を保証する数字ではありません。2群比較、一致性評価、診断性能、AIモデル、reader study、再構成評価では、必要なnの考え方が異なります。

相場としてのn

同じ分野の論文がどの程度のnで行われているかを知ることは有用です。ただし、それは「同じnなら妥当」という意味ではありません。

設計としてのn

検出したい差、ばらつき、許容誤差、信頼区間の幅、外部検証の有無から決めます。こちらが本当のサンプルサイズ設計です。

power計算: 差・SD・α・powerの関係

2群の平均差を検出したい場合、直感的には「差が大きいほど少ないnでよい」「ばらつきが大きいほど多いnが必要」「より厳しい有意水準、より高い検出力を求めるほど多いnが必要」です。

効果量、SD、α、powerと必要nの関係 — 図2. 必要nは、検出したい差Δ、ばらつきσ、有意水準α、検出力powerの組み合わせで増減する。

n_each ≈ 2σ²(z_1-α/2 + z_1-β)² / Δ²

n_each
各群に必要な目安数。独立2群の平均差を想定した近似。

Δ
検出したい差。小さい差を検出したいほど必要nは増える。

σ
測定値のばらつき。MRIでは撮像条件、解析条件、対象の多様性で変わる。

α
第一種過誤。通常は0.05が多いが、多重比較では調整が必要。

β / power
第二種過誤β、検出力は1-β。80%や90%がよく使われる。

z
正規分布の分位点。厳しい条件ほど式の分子が大きくなる。

数式が苦手な人向け: この式は「差をノイズから浮かび上がらせる」式

Δは見つけたい信号、σは背景のばらつきです。Δが大きい研究は、少ないnでも差が見えます。σが大きい研究は、差がノイズに埋もれるので多いnが必要です。

この式は独立2群の単純化です。対応あり比較、非正規データ、割合、AUC、ICC、Bland-Altman、AIモデルでは別の設計が必要です。

Power計算とPrecision設計の違い — 図3. power計算は「差を検出できるか」の設計、precision設計は「推定値をどれだけ狭く信頼できるか」の設計。Bland-Altman、ICC、ROCでは信頼区間の幅が研究の説得力を左右する。

MRI研究のn数相場: ただし十分性ではない

2025年の臨床MRI研究734本の調査では、全体の中央値は74.5例、前向き研究は41例、後ろ向き研究は129例でした。50.5%が75例未満、90.3%が350例未満、1000例超は1.6%だけです。

多施設研究は全体の10.6%で、中央値は単施設64例に対して多施設240例でした。評価方法別ではMachine learningが226例、Radiomicsが180例と高めでした。これは「相場」として参考になりますが、十分なpowerや外部検証を保証するものではありません。

臨床MRI研究のn数相場 — 図4. MRI研究のn数相場は研究タイプで変わる。AI/radiomicsや多施設研究では大きくなりやすい。

相場と妥当性を混同しない

分野の中央値に近いから妥当、という判断は危険です。効果量が小さい研究、測定ノイズが大きい研究、外部検証が必要な研究では、相場より多いnが必要になることがあります。

対応ありデザイン: 同じ対象を使う強さ

同じ対象で前後、左右、2条件、2再構成を比べる場合、対象間のばらつきを差し引けるため、独立2群より少ないnで差を検出できることがあります。鍵になるのは「差のSD」です。

対応ありデザインと独立2群比較 — 図5. 対応あり比較では、個体差を差し引いて、条件差のばらつきを見る。MRIのtest-retestや再構成比較と相性がよい。

n ≈ (z_1-α/2 + z_1-β)² σ_d² / Δ_d²

σ_d
ペア差のSD。対象ごとの差のばらつき。

Δ_d
検出したい平均差。before/afterや2再構成間の差。

4D Flowの再構成法比較、同一データへの解析法比較、test-retest、読影者間比較では、対応あり構造を保った解析にすると効率が上がります。ただし、ペアが崩れる欠測や時相差があると、その利点は弱くなります。

研究タイプ別: 何を基準にnを考えるか

研究タイプ	n数の考え方	代表的な統計・評価
2群比較	検出したい差、SD、α、power	t検定、Mann-Whitney U検定、効果量、95%CI
対応あり比較	差のSD、ペア内相関、欠測	対応ありt検定、Wilcoxon符号付順位検定、混合効果モデル
3条件以上	独立か反復測定か、事後比較数	ANOVA、Kruskal-Wallis、反復測定ANOVA、Friedman検定
定量値の一致	許容誤差、LoAの精度、test-retest構造	Bland-Altman、ICC、repeatability coefficient
診断性能	陽性/陰性それぞれの数、期待AUC、閾値	ROC/AUC、感度、特異度、PPV、NPV
reader study	症例数だけでなく読影者数、読影条件	MRMC、kappa、ICC、AUC比較
AI/radiomics	training/validation/test、イベント数、外部検証	AUC、calibration、decision curve、外部検証
再構成・unwrapping	ground truth、phantom、simulation、in vivoの役割分担	RMSE、residual aliasing、flow bias、VNR、TKE error

Bland-Altman / ICC / ROC: powerではなくprecisionを見る

一致性や診断性能の研究では、「差が有意か」よりも「どれくらいの精度で推定できるか」が重要になります。Bland-Altmanならbiasと95%一致限界、ICCなら信頼区間、ROCならAUCと感度・特異度の信頼区間を読みます。

Bland-Altman

biasが小さいだけでなく、95%一致限界が許容範囲に収まるかを見る。LoAの信頼区間が広すぎると、置き換え可能性を判断しにくい。

ROC/AUC

AUCだけでなく、陽性例と陰性例のバランス、閾値での感度・特異度、外部検証での性能低下を見る。

AI/radiomics: 小さいnで高性能に見える罠

AIやradiomicsでは、特徴量数が多く、モデル選択の自由度も大きいため、小さいnでは過学習が起こりやすくなります。trainingで高い性能が出ても、validation、test、外部検証で落ちることがあります。

AI/radiomics研究のサンプルサイズ設計 — 図7. AI/radiomicsでは、training、validation、test、外部検証を分け、domain shiftと過学習を評価する。

2025年のradiomics研究メタリサーチでは、116本中、サンプルサイズの正当化があったのは11本、そのうち事前計算を行っていたのは6本でした。中央値は全体223例、training 150例で、多くの研究が過学習を避けるには小さすぎる可能性があると指摘されています。

AI評価で最低限見るもの

データ分割、外部検証、イベント数、欠測処理、特徴量選択のタイミング、ハイパーパラメータ、calibration、decision curve、failure caseを確認します。AUCだけで研究の強さを判断しないことが重要です。

4D Flow再構成・unwrapping評価のn設計

Multi-VENC、phase unwrapping、Bayesian unfolding、Deep Learning補正では、単純な症例数だけでなく、ground truthの階層を設計します。simulation、flow phantom、in vivo、高VENC reference、それぞれの役割が異なります。

MRI研究の検証階層 — 図8. 再構成・定量・AI研究では、simulation、phantom、in vivo、external validation を階層として組む。n数だけでなく、aliasing severity、domain shift、failure case の分布を設計する。

評価層	強み	限界	見る指標
simulation	true velocityを知っている	実データの複雑さを完全には再現しない	RMSE、aliasing残存、TKE error
flow phantom	条件を制御できる	臓器運動や複雑な背景信号が少ない	flow bias、VNR、再現性
in vivo	実臨床に近い	true valueが不明になりやすい	残存折り返し、視覚QC、流量整合、reader評価
外部データ	一般化性能を見られる	撮像条件差、施設差、装置差の影響	性能低下、failure case、domain shift

深掘り: 4D Flowでは「n」より「aliasing severity分布」も重要

速度の折り返し補正では、対象数だけでなく、peak velocity/VENC比、折り返しvoxel割合、低VNR領域、複雑流、segmentation error、motionをどれだけ含めたかが効きます。

同じnでも、簡単なケースだけを集めた研究と、failure-proneなケースを含む研究では、評価の意味が大きく違います。

文献紹介

2025年の臨床MRI研究n数調査

734本の臨床MRI研究を調べ、全体中央値74.5例、前向き41例、後ろ向き129例、多施設240例、Machine learning 226例、Radiomics 180例など、MRI研究のn数相場を示した実務的に有用な調査です。

fMRI研究のサンプルサイズ報告レビュー

観察fMRI研究でサンプルサイズ計算やpower計算に必要な情報が十分に報告されていない問題を示したレビューです。相場ではなく、設計と報告の透明性が重要であることを教えてくれます。

Radiomics研究のサンプルサイズ問題

Radiomics研究では、特徴量数やモデル選択の自由度に対してnが小さく、サンプルサイズ正当化が不足しやすいことが示されています。AI/radiomics評価では外部検証と過学習対策が不可欠です。

Claim / Evidence / Limitation

Claim

MRI研究の必要nは、研究の問い、効果量、測定ノイズ、評価指標、外部検証の有無から決まる。

Evidence

臨床MRI研究のn数調査、fMRI報告レビュー、radiomicsメタリサーチ、repeatability/reproducibilityの統計的考え方。

Scope

MRI研究者向けの公開教育用概説。正式なpower解析や統計解析計画書ではない。

Limitation

疾患頻度、施設差、読影者数、欠測、脱落、多重比較、モデル選択、解析単位によって必要nは変わる。実研究では個別設計が必要。

Zettelkastenへ戻す問い

自分の研究の主要評価項目は、差、一致、診断能、予測、再構成精度のどれか。
必要nを決める時、検出したい差Δと測定ノイズσをどこから見積もるか。
対応ありデザインを使えるのに、独立2群として扱っていないか。
Bland-AltmanやICCでは、点推定ではなく信頼区間の幅を見ているか。
AI/radiomicsで、外部検証なしの高AUCを過大評価していないか。
4D Flowのunwrapping評価で、簡単なケースだけを集めていないか。