ネットワークメタアナリシスの読み方

投稿日

最終更新日

対象者:臨床医、エビデンス統合非専門家

目標:ネットワークメタアナリシスの結果を自分で表にまとめられるようになる

前提条件:ランダム化比較試験、ペアワイズ・メタアナリシスが読める

ポイントは、

  1. Transitivityを確認する(NG: transitivity言及なし)
  2. 効果の大きさをカテゴリー分けで評価する(NG: 単純な順位付け)
  3. エビデンスの質を評価する(NG: GRADE/CINeMA評価なし)

NMAとは?

ネットワークメタアナリシス (Network Meta-Analysis, NMA)は従来のペアワイズ・メタアナリシスの拡張版で、2つの介入の比較だけでなく、3つ以上の介入の相対的治療効果を検証することができる統計的手法です。

なぜNMA?

NMAが普及してきたのは、臨床的には、複数の介入から選択肢を検討することが多いというのが大きな理由です。うつ病に対して抗うつ薬Aがプラセボより良い、抗うつ薬Bもプラセボより良い、抗うつ薬Cもプラセボよりよい……というメタアナリシスがたくさんあったところで、どの抗うつ薬を選んだらよいかの参考にはほとんどなりません。(技術的には、統計ソフトで簡単にNMAを実行できるようになったことも大きな理由です。これには功罪があります。NMAをきちんと理解しないまま論文にしているケースも多々あり、注意が必要です。)

Cochrane Handbookの表紙も以前はペアワイズメタアナリシスのforest plotでしたが、2025年現在の表紙はNMAのnetwork diagramです。NMAが標準的なものの担ってきたことを感じます。

NMAの統計処理自体に新規性があった時代はすでに過ぎています。NMAを用いて新規性のある論文を書くには、①当該分野で初のNMA、②系統的レビューを丁寧に行って多くのRCTを組み入れる、③PICOの丁寧な定義づけ、④NMAの厳密な適用、などが必要になります。

NMAの発展版として、要素NMA、用量反応NMA、individual participant data-NMAなどがあります。

NMAの読み方:批判的吟味を超えて

EBM教育では、文献の批判的吟味が主となってきました。しかし、EBMの名付け親のGordon Guyatt氏らは、臨床家にとって批判的吟味は必須ではなく、それよりも下記のことをトレーニングすべきだと言います:①エビデンスは白黒ではなくグラデーションであると理解すること、②適切な2次資料を見つけられること、③元論文のRisk of Bias評価が主眼であってはならないこと、④エビデンスだけでは臨床判断に不十分であり、患者の価値観・嗜好や臨床環境に左右されることを理解すること。(Tikkinen KA, Guyatt G. 2021.)

本資料では批判的吟味に該当する部分は最小限にし、どのように結果を理解し、臨床判断に活用するか(もしくはしないか)に重点を置きます。

なお、系統的レビューとメタアナリシス (Systematic Review and Meta-Analysis, SR&MA)について批判的吟味をする場合は、PRISMA-NMAAMSTAR 2を参考にしてください。

読むに値するか評価する

論文数が爆発的に増える中で、ネットワークメタアナリシス (Network Meta-Analysis, NMA)も爆発的に増えています。多くの論文同様、その多くは読むに値しません。論文を実際に読む前に、多忙な臨床家の時間を割くに値する論文かどうかを評価するようにしましょう。

無駄なんだ…… 無駄だから 嫌いなんだ 無駄無駄……

  • ジョルノ・ジョバーナin Hirohiko Araki. JoJo’s Bizarre Adventure vol 47. Shueisha, Tokyo. 1996.

単著はすぐに除外しましょう。系統的レビューはダブルチェックをしながらすることが推奨されており、それさえできていないことになるからです。ハゲタカジャーナルと認識されているジャーナルに掲載されているものも除外しましょう。厳密にはよい論文である可能性もありますが、事前確率が低すぎます。

質を一番保証するのは、第一人者がファースト、セカンド、ラストなど重要な位置にいる論文です。ただ、これも分野ごとに慣れ親しむまでは判断しかねるでしょう。残念ながら4大誌でも質の低いものが掲載されることがあります。それでも、トップジャーナル掲載論文ほど質が高い傾向はあります。ガイドラインが引用している論文も質が高い傾向がありますが、どうしてもタイムラグがあるので時代遅れになっているかもしれません。

その他の確認ポイントは他に次のようなものがあります。

・Protocol:事前登録があるか。詳細なプロトコルが入手可能か。

・Database:2つ以上のデータベースを検索しているか。

・Appendix:ネットワークメタアナリシスを実施すると非常に多くのアウトプットが出てきます。Appendixが100ページを超えることも多いです。Appendixがない、もしくはあったとしても数ページというのではNMA自体の質を疑います。

系統的レビューとメタアナリシスはいわゆるエビデンスピラミッドにおいて最上位に位置するとされます。しかし、それはあくまでも適切に実施されていた場合です。また、適切に実施されても、メタアナリシスに組み入れられる研究の質が低いとメタアナリシスの結論の信頼性も低くなります。組み入れられたランダム化比較試験の数や質を十分考慮せずに結論が強い推奨になっているものには注意が必要です。

あまり強い言葉を遣うなよ 弱く見えるぞ

  • 藍染惣右介 in Kubo Taito. BLEACH vol 20. Shueisha, Tokyo. 2005..

結局、限界は認識しつつも、直近に出版されたトップジャーナル掲載論文の中からよさそうなものを探して読んでみる、ということになると思います。

NMAを実施してよいかを確認する:Transitivity

サッカーのリーグ戦で順位を決める時に、あるチームだけ毎回ホームで試合ができたり、他のチームが中1日のところを中3日で試合ができたりしたら、その順位はフェアなものでしょうか。フェアな評価の大前提として、ホーム/アウェーや試合間隔が平等であることが必要です。

各介入がフェアに比較されていることが、複数の介入を評価するNMAの大前提です。介入以外の重要な要素が平均すると平等に分布している必要があります。これをTransitivity と呼びます。(Cochrane Handbook 11.2.2) Transitivityを担保するために、複数の工夫をします。

  1. 系統的レビューを始める前に、事前にきちんとリサーチクエスチョンを固めます。NMAを、各介入が含まれる大規模臨床試験とみなせる必要があります (jointly randomizable)
  2. 系統的レビューの後に、effect modifierが平等に各介入に分布していることを確認します。
  3. Transitivityが成立していない場合は、NMAの結果のInconsistency(直接比較と間接比較の齟齬)に繋がり得るので、統計解析の後に、Inconsistencyの評価をします。

個々の評価の詳細までは理解できなくとも、Transitivityを確認しているかは要チェックです。例えば悪性腫瘍の治療法に関するNMAで、watchful waitingと抗がん剤治療と放射線治療と外科治療を比較するのは多くの場合対象ステージが大きく異なり、jointly randomizableとは言えないので不適切なことが多いでしょう。

  • 介入以外の全ての変数が同じなら文句なしですが、effect modifier以外の分布がどうであれ問題ありません。性別が相対的な治療効果に影響しないのであれば、A対Bの研究がすべて男性を対象にしていて、B対Cの研究がすべて女性を対象にしていたとしても、問題ありません。

 効果量・質の評価

効果の大きさを評価する(順位づけでなくカテゴリー分けをする)

世界最高のサッカーチームはどこでしょうか?レアル・マドリー?マンチェスター・シティ?バイエルン・ミュンヘン?

複数の介入を評価するNMAもスポーツの順位付けに似ています。サッカーのリーグ戦において勝ち点で順位付けするように、NMAでもSUCRAやP-scoreと呼ばれる指標で順位付けをすることができます。しかし、順位付けには問題があることが知られています。偶然で容易に順位が入れ替わるかもしれません。順位には元になっているエビデンスの質が反映されません。順位が多少違っても、特に意味のない小さな差しかないかもしれません。

そもそも、順位がどこまで大事かは場合によります。国試であれば合否以外の差はあまり意味がないでしょう(もちろんちゃんと勉強するに越したことはないにせよ)。サッカーであれば優勝かそのほかは大きな差ですが、それでも実力の差がどこまであるかはケースバイケースです。1位が圧倒的なこともあるかもしれませんが、順位が1つ違っても接戦でほとんど差がないかもしれません。とはいえ、優勝を争うグループと、降格争いのグループとではやはり差があるでしょう。

細かな順位はブレがありうるものの、上位・中位・下位というグループ分けは妥当でしょう。NMAにおいて1つずつ順位付けをするのではなく、カテゴリー分けする方法としてminimally contextualized framework(Brignardello-Petersen R, et al. 2020a)やpartially contextualized framework (Brignardello-Petersen R, et al. 2020b)という枠組みが提唱されています。 カテゴリー分けの仕方に絶対的な正解があるわけではありませんが、参考になります。

Minimally contextualized frameworkもpartially contextualized frameworkもどちらもやり方はシンプルです。

Minimally contextualized frameworkではリーグ表を見ながら進めます。まず、対照群を定めます。次に、それと比較してp < 0.05となる差がつくものをカテゴリー1に分類します。さらに、同じカテゴリーの中でp < 0.05となる差がつくものをさらに上のカテゴリーに分類していきます。利点は、機械的に分類できること。欠点は、p = 0.05の閾値にやや引っ張られすぎなところです。

Partially contextualized frameworkではリーグ表の一列を見て進めます。対照群と比較して、効果量の大きさで分類します。ただし、大きな効果、中くらいの効果、小さな効果を分類するのは意外に悩ましいです。また、効果量が大きいもののエビデンスの質が低くて信頼区間の幅が広いものを高く評価してしまいがちなところが欠点です。

  • p = 0.05 で統計的有意差の有無を議論することに対する懸念 (Wasserstein RL, Lazar NA. 2016) もあります。一方で、ランキング指標に頼ることにも弊害があり、かといって、全てはグラデーションであるとするのも判断を放棄しすぎだと思います。カテゴリーには妥協案です。

次に、根拠となるエビデンスの質を評価します。NMAの結果の確信度の評価は、GRADE (Guyatt G, et al. 2008, Izcovich A, et al. 2023) やCINeMA (Nikolakopoulou A, et al. 2020)という枠組みで行われます。組み入れられたRCTのバイアス(Risk of Bias 2 (Sterne JAC, et al. 2019)で評価)以外にも、報告バイアス、直接的なエビデンスと間接的なエビデンスの一致度、異質性などの評価を行います。GRADE/CINeMAがきちんと評価されていないNMAの信頼性は低いです。ただし、GRADE/CINeMAは著者が責任を持って評価すべきことであり、読者としてはその適切さの評価することが難しいです。また、いい加減なNMAほどエビデンスの質を高く評価しがちです。

そこで、代替指標として、介入に割り付けられた人数を確認することをおすすめします。サンプル数が少ないと、効果が過大評価されがちなことが知られています。(Dechartres A, et al. 2013) 100未満は要注意、1,000以上あればある程度確かです。打率ランキングにおける規定打席数のようなものですね。

ガイドライン・臨床経験などとの整合性

適切に実施されたNMAはベストなエビデンスを提供しえますが、その結果は絶対的なものではなく、グラデーションがあります。ガイドライン・臨床経験などとも整合性を確認し、妥当な範囲の中で選択の一助にしましょう。

迷ったら、①新薬の優先度は下げる、②患者への負担が少ない選択肢を優先する、③慣習に従う、などがおすすめです。新薬は過大評価される傾向があることが知られています。(Luo Y, et al. 2023)有効性に明らかな差がなさそうであれば、より副作用が少ないものを選択するのが妥当でしょう。低用量と高用量で明らかな有効性の差がなさそうであれば、低用量が優先されるでしょう。

練習問題:不眠症の初期治療

Furukawa Y, Sakata M, Furukawa TA, Efthimiou O, Perlis M. Initial treatment choices for long-term remission of chronic insomnia disorder in adults: a systematic review and network meta-analysis. Psychiatry Clin Neurosci. 2024;78(11):646-653. doi:10.1111/pcn.13730

まずは一番単純な3群比較のNMAで練習をしてみましょう。

Transitivityを確認しているかは本文で確認してください。

次に効果の大きさを評価しましょう。必要な情報はFigure2とAppendixにあります。

Minimally contextualized framework:レファレンスであるPharmacotherapyと差がついているCBT-Iがワンカテゴリーアップですね。CombinationはCBT-Iと大きく差はないものの、Pharmacotherapyとも明らかな差があるわけでもなく、同じカテゴリーという扱いになります。

Partially contextualized framework:Table4を見ると、点推定値はCBT-IとCombinationはほぼ同等です。CBT-IとCombinationを同じカテゴリーにします。

次に、エビデンスの質を評価します。本文中にも記載されていますが、Figure1も参考になります。CBT-IとPharmacotherapyの比較のみModerate(4段階評価の上から2番目)という評価です。

人数は本文中に記載があります。

We found evidence that initiating the treatment with CBT-I (nine arms, n = 292) was more effective than with pharmacotherapy (seven arms, n = 193) in the long term (OR, 1.82 [95% CI, 1.15 to 2.87; certainty of evidence: high]). We also found weaker evidence of superiority of combination (five arms, n = 142) 

これらを踏まえて結果を表にすると、下記のようになります。

 ←効果小効果大→
N > 1,000  
 Pharmacotherapy [ref] CombinationCBT-I
N < 100  
 ←効果小効果大→
CINeMA: high/moderatePharmacotherapy [ref]CBT-I
CINeMA: low/very lowCombination 

Partially contextualized frameworkを用いると下記のようになります。

 ←効果小効果大→
CINeMA: high/moderatePharmacotherapy [ref]CBT-I
CINeMA: low/very low Combination


投稿日

最終更新日

投稿日カテゴリー:

,

投稿者: