システマティックレビュー&メタアナリシスを臨床に活かす
「臨床現場に最新のエビデンスを取り入れたいけど、どの論文をどう読んだらよいかわからない!」と思いませんか?
PubMedには毎年およそ3万件のランダム化比較試験(RCT)、5万件のシステマティックレビュー&メタアナリシス(SR&MA)が追加されています。専門領域を絞っても、研究タイプをSR&MAに絞っても、医学論文すべてを読みこなすのは不可能です。
さらに、SR&MAに限定しても多くの手法が開発されています。医学論文の読み方に関する書籍もたくさんありますが、観察研究やRCTについての解説が多く、SR&MAの新しい手法については詳しくないことがほとんどでした。特に、SR&MAを臨床にどう活かすかを解説しているものはありませんでした。
私は精神科医として、用量反応メタアナリシスや要素ネットワークメタアナリシス、個別患者データメタアナリシスといった多様な手法を用いて、国際的なガイドラインにも引用される研究を発表してきました。しかし、SR&MAを適切に解釈するのは必ずしも簡単ではなく、誤解にもよく遭遇します。
この記事では、研究の経験を踏まえ、SR&MAを単なる「エビデンスの最上位」として受け入れるのではなく、臨床に活かすためにどのように読み解くべきかを解説します。
SR&MAを正しく読む力は、患者に還元できる医療の質を確実に高めてくれるでしょう。(多くの場合、SR&MAを臨床にすぐ応用しない、という慎重な姿勢も極めて重要です。)
なお、本記事では介入に関する研究にフォーカスを当てます。有病率や予後予測、診断に関しては触れません。あらかじめご了承ください。
目次
システマティックレビュー&メタアナリシスを読む5 ステップ
システマティックレビュー&メタアナリシス(Systematic review and meta-anlaysis, SR&MA)を臨床に活かすために読むときには次の5つのステップを踏みます。
①臨床疑問をPICOで定式化する
②読む価値のある論文を見つける
③効果の大きさとエビデンスの質を理解する
④患者さんへの適用を考える
⑤振り返る
Sacketが1997年に提唱したEBMの5つのステップ[1]を踏襲していますが、批判的吟味の部分を「効果の大きさとエビデンスの質を理解する」に差し替えました。臨床家の多くは批判的吟味をすることはないという(もともこもない)EBM教育の反省[2]を踏まえて、SR&MAやガイドラインの情報を理解することに重点を置きました。
臨床疑問をPICOで定式化する
PICOは患者・介入・比較・アウトカムを整理する枠組みのこと
介入に関する臨床疑問はPICO(ピコ)という枠組みを用いて整理します。(予測や診断精度に関してはなどの他の研究デザインにおいては別の枠組みを使いますが、本記事は治療や予防などの介入のみを取り上げます。)PはPopulation(集団)[3]、IはIntervention(介入)、CはControl(対照)、OはOutcome(アウトカム)の略です。
P = Population:目の前の患者さんを代表する集団
P(Population)は目の前の患者さんを代表する集団のことです。目の前の患者さんは常に個別性のある独自の存在です。しかし、この患者さんにある介入を提供するかを検討する場合には、目の前の患者さんと同じような他の患者さんから得られた知見を当てはめることになります。そのために、他の患者さんとの共通項となる重要な特徴を抽出します。似た患者さんでどうだったかを考えるのはEBM(Evidence-Based Medicine, 根拠に基づく医療)に限らず、自身の臨床経験に基づいて考える場合でも同じです。
Pをまとめる時には、具体と抽象の間でバランスをとることが大事です。例えば、精神療法を提供するうえでは個別に患者さんの生育歴や病歴などを理解することが重要ですが、他の似た患者さんと照合するためには、あまりに個別的すぎても比較できません。当たり前ですが、一人ひとり特別な存在で、全く同じ人などいません。逆に、あまりに抽象化して上位概念にしすぎても、意味がありません。どんな患者さんでも哺乳類ではありますが、P=哺乳類、などとまとめたところで意味のある知見と照合できないのは明らかです。具体と抽象の間でバランスを取りましょう。主病名と年齢(小児、成人、高齢者、くらいのカテゴリー別)がいちばん重要なことが多いです。性別、重症度、主な合併症なども最終判断には大事になってくるかもしれませんが、文献検索では使わないことが多いです。
I = Intervention: 介入は実施を検討する選択肢
I (Intervention)は治療や予防などの介入のことです。どの範囲までを同じ治療とみなすかをきちんと定義しましょう[4]。心理療法では認知行動療法が有名ですが、一口に認知行動療法と言っても含まれる内容は千差万別です。何をもって認知行動療法とみなすかを定義する必要があります。SR&MAを実施する場合は介入をできるだけ具体的に定義することが望ましいです。SR&MAの読者としては、厳密にあらかじめ定義しておく必要はありませんが、SR&MAにおいてどのように定義しているかは確認が必要です。心理療法よりも画一的な治療が提供できる薬物療法ですが、投与量、投与方法(回数、経路、間隔)など、さまざまなバリエーションがあります。
C = Control: 対照は介入をしないときにとるであろう選択肢
C (Control) は対照のことです。薬物療法では多くの場合はプラセボが対照に用いられますが、通常治療[5]や無治療などが用いられることもあります。心理療法では後から介入を受けることができる待機群[6]や、有効そうに見えるだけのシャム治療[7]を使うことが多いです。また、複数の薬が候補に上がる場合は、薬と薬を比べるという必要があるかもしれません。
「プラセボ効果」といってプラセボを飲んでいると思うことによる治療効果というのがよく話題になります。しかし実は、プラセボによる効果というのはほとんどないと言われています[8]。(痛みと吐き気に関する主観的な評価は例外です)プラセボ効果と言われていたのは、実はただの自然経過に過ぎなかったということです。
O = Outcome: 目の前の患者さんにとって重要なアウトカムを選ぶ
O(Outcome)を選ぶ時には、目の前の患者さんにとって意味のあるものを選ぶことが大事です。患者さんにとって意味のあるアウトカムのことを真のアウトカム (true outcome)、真のアウトカムに関連するとされるもののそのものは真のアウトカムとは言えないものを代用アウトカム (surrogate outcome)といいます。真のアウトカムは、生存/死亡と自覚症状とに集約されます。他の指標が一切変わらなかったとしてもその指標を改善することが患者さんにとって意義があるものが真のアウトカムで、それ以外は代用アウトカムです。
検査値が代表的な代用アウトカムです。血圧やHbA1cなどの検査値の改善だけでは真のアウトカムとは言えません。血圧やHbA1cが改善したところで、心血管系イベントやその他の合併症が減らないのであれば意味はないでしょう。代用アウトカムの危険性を示したRCTとしてCAST試験が有名です[9]。心筋梗塞後の患者では心室性期外収縮(PVC)が多く、それが突然死のリスク因子と考えられていました。抗不整脈薬(フレカイニドやエンカイニドなど)はPVCを抑制できるため、「PVC抑制 = 突然死予防」という仮説が広く信じられていました。しかし、CAST試験の結果、確かにPVCは抑制されましたが、死亡率は逆に増加していたのです。代用アウトカム(PVC抑制)をそのまま真のアウトカム(死亡率低下)とみなすのは危険」ということを示しました。
無増悪生存期間 (Progression Free Survival)が悪性腫瘍の治療でよく用いられますが、これも代用アウトカムです。無増悪生存期間も全生存期間 (Overall Survival) やQoLとは必ずしも相関しないということが知られています[10][11]。
疾患特異別死亡 (Disease-specific mortality)も注意が必要です。死因の判定は必ずしも簡単ではありません[12]。治療が他の原因での死亡リスクを上げるかもしれません。多くの場合、出血リスクを減らす治療は梗塞リスクを増やし、梗塞リスクを減らす治療は出血リスクを増やします。トータルで全死亡が減らないどころか、増えるリスクさえあるでしょう。他にも、全死因に占める疾患特異的な死亡リスクが小さい場合、全死亡を減らさない可能性が考えられます[13]。
複合アウトカム (Composite outcome) は複数の異なる臨床イベントを1つの評価項目にまとめたものです[14]。これにより、単一のイベントでは発生頻度が低いために検出が難しいイベントの数を、他のイベントも合わせることで増やし、試験の検出力を高めることができます。例えば出血と梗塞など、同程度の重篤性があり相反するものを集めれば全体としての意義がわかりやすくなります。しかし、死亡と再入院などのように重要性が異なるものをまとめてしまうとアウトカムの意義が曖昧になります。また、臨床試験ごとに複合アウトカムに含まれるイベントの種類が異なると、メタアナリシスをする際の異質性に繋がります。
メタアナリシスでは、複数の臨床試験結果を統合することで検出力を高めることがます。単一のRCTでは検出が難しくても、SR&MAでは検出できるかもしれません。代用アウトカムではなく、真のアウトカムについて検討するようにしましょう。
読む価値のある論文を見つける
トップジャーナルとガイドラインから論文を見つける
毎日大量の論文が発表される昨今において、読む価値のある論文以外を読まないことも大事です。最低限の質がある程度担保されているものとして、トップジャーナル掲載論文、コクランレビュー[15]、主なガイドラインに引用されている論文を優先しましょう。UpToDateやDynaMedなどの二次資料をまとめたサービスも参考になるでしょう。
実際はトップジャーナル掲載論文でもガイドライン引用論文でも質の低いものはあります。他のジャーナルに掲載された論文でも、質の高いものはあります。しかし、良い論文である確率はやはり良いジャーナルに載ったもののほうが高いです。限られた時間の中で調べるときは優先順位をつけざるを得ません。
論文の研究手法がRCTのSR&MAであることを確認する
介入効果を知るためのもっとも妥当性の高い研究手法は(適切に計画・実施された)RCTとその(適切に計画・実施された)SR&MAです。
ガイドラインは必読だが、推奨文を読むだけではダメ
ガイドラインは最新のエビデンスに基づいて共同意思決定を支援するために予後、検査、治療法についての知見をまとめたものです。学会などの専門家が集まって多大な労力をかけて作成されるもので、とても重要なものです。しかし、必ずしもエビデンスピラミッドの頂点に位置するというわけではありません。
ガイドラインにも様々なものがあり、質は必ずしも保証されていません。近年は質が高くなってきていますが、エキスパートが集まり意見を統合しただけというものもあります。もちろんそれも大いに参考にすべきではありますが、エビデンスレベルとしてはエキスパートオピニオンに準じます。ある疾患の専門家といっても、臨床試験の読解や解釈に通じているとは必ずしも限りません。ガイドラインを制定するのには長い時間が必要で、多大なリソースが必要になるため、アップデートができていないということも珍しくありません。重要なRCTが実施され、それが公表され、さらにそれを含めたSR&MAが実施され、さらにそれが含まれたガイドラインが制定される、となると、RCTの実施から10年以上タイムラグが生じることも珍しくありません。メジャーな疾患でも治療方針の世界的な潮流が大きく変わったにもかかわらず、10年以上ガイドラインが改定されていないこともあります。作成されてから時間が経っているようであれば海外のものも含めて最新のガイドラインがないか確認しましょう。
ガイドラインは、最終的に検査や治療を「強く推奨する」「弱く推奨する」などのカテゴリーに分けて提示します。推奨には当然、価値判断が含まれます。価値判断には患者や治療環境が影響を与えますが、ガイドラインの制定過程ににおいて、患者の価値観が必ずしも反映されているわけではありません。
ガイドラインごとに推奨の方向性が異なることもあります[16]。ガイドラインにやれと書いてあるからやるべき、やるなと書いてあるからやるべきでない、と杓子定規に判断するのではなく、個別に対応する必要があります。ガイドラインの推奨文を読むだけでなく、その根拠となったエビデンスをしっかり確認するようにしましょう。患者さんごとに推定されるメリットデメリットを提示して、患者さんごとの価値判断を尊重するべきでしょう。EBMをきちんと行うという事は、一人ひとりの患者さんの価値判断を尊重することそのものです[17]。
SR&MAは(適切に計画・実施されていれば)現状でベストな知見を提供してくれる
SR&MAは、系統的に(つまり、手続きをきちんと定めて)文献を網羅的に調査した上で、結果を統合する研究手法です。SRを伴わないMAも存在しますが、結果が恣意的なものになってしまいます。SRを行った上で、結果を統合するのが不適切であると判断してMAを行わないということもありえます。
いわゆるエビデンスピラミッドにおいて、SR&MAが頂点におかれることが多いです。たしかに、適切に計画・実施されたSR&MAは現状でベストな知見を提供してくれます。しかし、SR&MAだからといって、必ずしもエビデンスの質が高いわけではないことに注意が必要です。まず、SR&MAの質自体が低いということがありえます。また、SR&MAをベストな方法で実行しても、一次研究の質や量が不十分な場合は、SR&MAの結論にも限界があります[18](十分なエビデンスがなかったというSR&MAの結論は誠実な結論です。十分なエビデンスがないにも関わらず、SR&MAの結果だからと自信満々な結論は要注意です)。
SR&MAの結果の質ではなく、SR&MA自体の質の評価については「SR&MAの質 (Credibility) を評価するときは」を参照してください。
RCTが(適切に計画・実施されていれば)因果推論では最強だが、単一の研究で決定打となることは滅多にない
ランダム化比較試験(Randomized controlled trial, RCT)は(適切に計画・実施されていれば)因果推論において最強の研究デザインとされています。なぜでしょうか。
例えば、市中肺炎の抗菌薬治療期間を何日間にするのが治療効果が高いのかを知りたい場合、肺炎の治療期間と治療成果を比べて検討することになります。カルテ調査をして、治療期間が短いほど改善する人が多かったとします。これをもって、抗菌薬治療期間を短くするべきだと結論づける人はあまりないと思います。おそらく誰でも、治療期間が短くて済んだのはもともと重症度が低かったのではないかと疑うでしょう。この場合、重症度が交絡因子として働いていた(介入にもアウトカムにも影響していた)と疑うことになります。

重症度ごとに患者を層別化することでこの交絡因子には対応することもできます。しかし、交絡因子が必ずしも測定されていないかもしれませんし、我々はすべての交絡因子を知っているわけでもありません。未測定の交絡因子があると、観察研究では因果推論が困難になります[19]。そのため、観察研究では因果関係に肉薄はできるものの、強く因果関係を主張するのは難しいです。
交絡因子の影響を回避する手法として、操作変数法があります。操作変数とは、次の3条件を満たす変数です。
①介入と関連している
②介入を介してのみアウトカムに影響する
③介入とアウトカムの未測定の交絡因子が関連しない
操作変数からアウトカムへの経路を見ると、未測定の交絡因子があったとしても、介入が「コライダー」となり経路を遮断します。(コライダーとは、「合流点」とも呼ばれ、矢印が合流する点です。因果推論において、コライダーは調整してはいけません。調整すると合流した矢印の上流にある因子同士が関連しているように見えてしまいます。興味がある方は因果推論の解説を参照してください。本記事を読むうえではそういうものかと思っていただければ十分です。)
そのためRCTでは交絡因子の影響を排除でき、因果推論をすることができるようになります。操作変数法の難点は、この3条件を満たす変数が現実にはほとんどない、ということです[20]。

不可能を可能にするのが、ランダム割り付け(くじ引き)を操作変数として用いるランダム化比較試験です。くじ引きで介入を決めるわけですから、①介入と関連しています。くじ引きの結果は②介入を介してのみアウトカムに影響すると考えてよいでしょう。そしてもちろん、くじ引きの結果は③未測定の交絡因子と関与しません。

RCTは未測定の交絡因子(未知のものも含む)を調整することができる、というのが因果推論をする上で最大の強みです。
因果関係の証明において、RCTが最強なのであれば、なぜわざわざSR&MAをする必要があるのでしょうか。RCT一つ一つが必ずしも規模が十分に大きくない場合に、全体を統合して判断する必要があるからです。RCTごとに結論が異なることも珍しくありません。現存の関連するRCT全体を踏まえたうえで、効果の大きさを推定するといのがSR&MAです。
観察研究でも理論上は因果推論が可能だが困難を伴う
観察研究を用いて因果推論を行う試みが近年盛んです。因果推論の概念的な方法論が発達したことが背景にあります。DAG(有向非巡回グラフ, Direct Acyclic Graph)という図を描いてどのような変数を測定する必要があるのか、どのような解析をする必要があるのかを考えます。しかし、これまでの観察研究のほとんどがDAGを描いていません。また、そのDAGが正しいかは誰にもわかりません。DAGが正しいと仮定しても、必要な変数が全て測定されているデータセットがあることはめったにありません。それらの変数を全て観察する研究を今からするのであれば、RCTを行ったほうがよいかもしれません。観察研究による因果推論の研究が進んでも、RCTの重要性は変わらないでしょう[21]。
観察研究をReal World Evidence(RWE)と称することでしっかりした研究であるかのように主張するのは、SR&MAだからエビデンスレベルが高いと主張するのと五十歩百歩です。RWEでないものとしてRCTを引き合いに出すのはおかしな話です。RCTに組み入れられた患者さんも実際に存在し、実際に介入を受けています。実際に患者さんが関わっているのに、それを「リアルではない」という言い方は乱暴です。Non-real worldと言えるのはシミュレーション研究程度ではないでしょうか。一人ひとりにとって「リアルワールド」というのは異なります[22]。実臨床で出会う患者さんとRCTに組み入れられる患者さんの特徴が異なることがよく指摘されますが[23]、その「リアルワールド」の中の患者さんと実臨床で出会う患者さんが同じかも確認が必要です[24]。
「観察研究は内的妥当性は低いが外的妥当性が高い」と言われることがあります。これは内的妥当性に関しても外的妥当性に関しても不適切な説明です。そもそも内的妥当性がないものを、他の集団に当てはめることが妥当であり得るでしょうか。観察研究でも適切に計画し実施された研究では内的妥当性がある程度担保されることがあります。観察研究というだけでは外的妥当性は担保されません。
外的妥当性には2通りの意味があります。研究で対象となった集団の母集団に適応できるかというgeneralizabilityと、別の集団に適応できるかというtransportabilityです。東京都の一部で行われた研究が、東京都全体や日本全体に当てはまるか、というのがgeneralizabilityで、外国に当てはまるかというのがtransportabilityです。観察研究であれば外的妥当性が担保されるという保証は全くありません。ランダム抽出を行えばgeneralizableであると主張できますが、ランダム抽出ができている観察研究は稀でしょう。ランダム抽出してリクルートしても研究に参加してくれるのは一部であるという意味では、結局RCTと似た問題を抱えることになります。また、ほとんどの場合、観察研究が実施されたのは数年以上前でしょう。眼の前の患者さんが置かれた状況と観察研究が実施されたときの状況が異なることも多いです。実質的にはgeneralizabilityを検討することはあまりなく、transportabilityを検討することになります。
外的妥当性の検討が必要なのは観察研究でもRCTやSR&MAでも同じです。観察研究の外的妥当性について検討する時には、①効果修飾因子、②介入のバリエーション、③効果の波及の問題を検討します[25][26]。次の章で外的妥当性について検討します。③の家族や友人に介入の影響が波及する問題はRCTよりも観察研究での方が問題になりそうです。②の介入のバリエーション(例. 「運動」の中身はなにか、「認知行動療法」の中身はなにか)はRCTのSR&MAでも問題になりますが、これも観察研究よりも明確な定義が入手できることが多いでしょう。①の効果修飾因子については次の章で詳しく取り上げます。
論文が臨床疑問に対応するかを確認する
読む論文の候補が見つかったら、それらの中で自分の臨床疑問にどれが1番適しているかを検討します。自分の関心のあるPICOにバッチリ合致するものが見つかった場合、問題はありません。
一方で、PICOが少し異なるエビデンスしか見つからないということもあります。例えば高齢者について知りたいのに、高齢者に関する十分なエビデンスがなく、一般成人に対するエビデンスを参考にせざるを得ないことがあります。日本人に有効かどうかが知りたいのにほとんどの臨床試験が欧米で行われているということもあります。日本と海外で承認されている薬剤の用量幅が異なることもあります。どうしたらよいでしょうか。
PICOが異なることによる影響は、SR&MAのエビデンスの確実性を評価するGRADEでは、Indirectness(非直接性)として評価します。PICOの違いがどれだけ本当に知りたいPICOに対する答えを変えてしまうかを評価し、場合によっては確実性の評価を下げる必要があります。特に、代用アウトカムが用いられている場合はあくまでも参考程度として取り扱う必要があるかもしれません。[27]
Pに関する非直接性
RCTでは厳しい適格基準を用いて患者さんを選ぶため、実臨床での患者さんの多くは適格基準を満たしません[28]。そのため、「P(集団)が違うから結果が当てはまらない」と批判されることがあります[29]。たしかに、Pが違うために介入効果が違うということもありえますが、Pが多少違っても介入効果は変わらないということもありえます。疾患が同じで、治療効果の機序が同じであれば、たとえ人種[30]や性別や年齢が異なっても、介入効果はある程度同じだと期待できるかもしれません。実際、Pが異なっても介入の相対的な効果は共通していることが多く[31]、GRADEでもPの非直接性を理由にダウングレードすることは稀と明記されています[32]。効果修飾因子を検討する研究の報告ガイドラインであるICEMANでも、効果修飾因子の影響が明らかであることは稀であり、サブグループごとの違いの報告は偶然によるものの可能性が高いことが強調されています[33]。
介入効果の大きさに影響を与えるものを効果修飾因子(Effect modifier)といいます。介入の有無に関係なくアウトカムに影響するものを予測因子(Prognostic factor)といいます。効果修飾因子が異なる場合、SR&MAの結果をそのまま当てはめることはできません。一方で、予測因子が異なっても、SR&MAの結果を当てはめることができます。詳しく見ていきましょう。
効果修飾因子(Effect modifier)
効果修飾因子(Effect modifier)は介入効果の大きさに影響を与える因子です[34]。交絡因子とは異なり、適切にRCTを実施しても影響が残ります。
ある疾患Aに対して介入Bをすると1ヶ月以内に改善する人の割合が20%から40%になるとします。効果量はRR 2です。性別が効果修飾因子であり、女性のほうが治療で効果が出やすいとします。疾患Aに対して介入Bをすると1ヶ月以内に改善する人の割合が20%から50%になります。治療Bをしなかった場合での改善する人の割合は20%で変わりませんが、効果量はRR 2.5です。
効果修飾因子の違いがある場合、SR&MAの結果をそのまま他の集団に当てはめることはできません。
予測因子(Prognostic factor)
予測因子(Prognostic factor)は治療介入の有無と無関係にアウトカムを予測する因子です。
ある疾患Aに対して介入Bをすると1ヶ月以内に改善する人の割合が20%から40%になるとします。効果量はRR 2です。性別が予測因子であり、女性だと予後が良いとします。疾患Aに対して介入Bをすると1ヶ月以内に改善する人の割合が30%から60%になります。治療Bをした場合でもしなかった場合でも改善率が高いですが、効果量はRR 2で変わりません。
予測因子が異なっても、効果量は使うことができます。
効果修飾因子も予測因子も不明確である場合の現実的な対応策
SR&MAに組み入れられた患者さんが目の前の患者さんと異なる場合、ただ異なるから結果を当てはめることはできないとするのではなく、その違いによって効果修飾がありうるか、どの程度の違いがありそうかを評価する必要があります。
しかし、効果修飾因子や予測因子を評価することは簡単ではありません。解析には大量のデータが必要ですが、全ての臨床試験で共通して評価されていないと解析することができません。大量のデータを集めるほど検討できる項目が減っていくというジレンマがあります[35]。
効果修飾があったとして、臨床判断を変えない程度であればそこまで気にしなくてよいでしょう。例えば、統合失調症に対する抗精神病薬は女性の方が効果が高いことが示唆されていますが[36]、男性に対しても有効です。男性に対して抗精神病薬を用いるべきではないとはなりません。
例えば、ベースラインの重症度が異なると治療効果が異なりそうですが、相対的な効果は大きく変わらないことが統合失調症に対する抗精神病薬[37]やうつ病に対する抗うつ薬[38]の研究で示されています。平均すると、もともと重症な人のほうが、軽症な人と比べて治療後も症状が悪い傾向がありますが、改善幅は大きいです。
RCTの適格基準を満たさない患者さんのアウトカムが悪い[39]というだけでは治療効果が小さいことを意味しません。ただし、RCTの適格基準を満たさない患者さんの治療効果が小さい可能性を示唆するエビデンスもあります[40]。
効果修飾の影響がとても大きく、治療効果の方向性が変わる可能性が考えられる場合はSR&MAの結果をそのまま当てはめることはできないでしょう。効果修飾因子の影響があっても小さいと考えられる場合はSR&MAの結果を参考にして良いと考えられます。効果修飾因子の影響が中等度以上にありそうな場合は、SR&MAの結果を参考にしつつ、有効性は異なるかもしれない(RCTより小さいかもしれない)と考えるのが良いでしょう。
Iに関する非直接性
介入にはバリエーションがつきものです[41]。どこまでのバリエーションを同じ介入として捉えるか、もしくは、その介入の違いがどの程度効果の大きさに影響するかを判断する必要があります。
薬物療法も用量、用法などバリエーションがあります。通常は、先発品とジェネリックはひとまとめでよいかと思いますが、違いがあるのではないかと疑う場合は別のものとして扱うことになります。用量はどの範囲までを対象とすればいいでしょうか。添付文書やガイドラインなどで治療域とされている用量をひとまとめにすることが多いです。ある薬の15mgと45mgの効果を大きく変わらないと判断してよいかは臨床経験も踏まえて検討する必要があります。用量反応メタアナリシスという手法を用いることで、用量と効果の関係を検討することができます[42]。うつ病に対する抗うつ薬[43]や統合失調症に対する抗精神病薬[44]の用量反応メタアナリシスでは、おおむね治療域の低用量域から中等用量域で効果がプラトーに達することが示されています。用量によって効果が大きく異なることが想定される場合は用量ごとに分割をする、用量反応メタアナリシスを使うなどの工夫が必要です。
心理療法は同じ名称を名乗っていても中身はバリエーションがあります。どのようなものであれば関心のある心理療法と同じものだと言えるか、頭の片隅においておく必要があります。様々な組み合わせの臨床試験が多数ある場合、要素ネットワークメタアナリシスを用いることで複数の要素から構成される介入の各要素の効果を推定することができます[45]。
効果の大きさとエビデンスの質を理解する
SR&MAの結果を目の前の患者さんに適応する場合、SR&MAの結果の効果量の大きさとその効果量を導く根拠となったエビデンスの質の両面に着目する必要があります。質の低いエビデンスほど効果が大きいという結論になりがちなので、注意が必要です。
効果の大きさを定量的に把握する
まずは介入の効果の大きさを定量的に把握します。臨床的意義がわかりやすい形に変換するのが重要です。
なお、RCTとそのSR&MAによってわかる介入効果は、前後比較ではなく、ランダム割り付けされたグループごとの群間比較です。RCTの中には前後比較の結果を強調しているものもありますが、それではランダム割り付けをした意味がありません。
変数の種類ごとに意義の大きさを理解しやすい形に変換する
アウトカムの定量的に表現するときには、2値変数や連続変数が用いられます。2値変数とは生存/死亡、改善した/改善しなかった、のようにゼロかイチかの2つの値で表現される変数のことです。連続変数とは抑うつ症状の尺度、痛みの尺度などのように連続的な数字で表される変数のことです。2値変数も連続変数も、複数の表現の仕方があります。2値変数も連続変数も、臨床的に解釈しやすい形に変換することが必要です。
2値変数
2値変数とは、生存/死亡、改善した/改善しなかった、のように、ゼロかイチかで表現される変数のことです。抑うつ症状などの連続変数を一定の閾値で分割し、50%以上抑うつ尺度が低下したら改善した、そうでなければ改善しなかった、というふうに2値変数に変換することもあります[46]。2値変数の方が解釈が容易なため、臨床家に好まれる傾向があります。連続変数の方が情報量が多く、統計学的な検出力が高いために、統計学者に好まれる傾向があります。
CER&EER
2値変数の臨床的意義を理解するのに1番適切なのがCER&EER(Control Event Rate and Experimental Event Rate)を併記することです[47]。CERが対照群におけるイベント発生率、EERが介入群におけるイベント発生率です。
例えば、「安定した統合失調症のある患者さんに対して、何も薬物治療行わないと1年以内の再発率が100人中60人なのに対して、抗精神病薬治療を継続すると100人中20人である」と表現します。
ARD
絶対リスク差(Absolute Risk Difference, ARD)も臨床的意義を理解しやすいとされています。ARD = CER – EERです。
例えば、「安定した統合失調症のある患者さんに対して、何も薬物治療行わないのに比べて、抗精神病薬治療を継続すると、1年以内の再発が100人に40人少なくなる」と表現します。
ARDだけだとCERの情報が抜け落ちるために、再発が100人中100人から60人になるとしても、40人から0人になるとしても同じ値になってしまうのが欠点です。
NNT
NNT(Number Needed to Treat)は1人に効果を出すために何人に介入をする必要があるのかを表す数字です。NNT = 1/ARDという関係にあります。「安定した統合失調症のある患者さんに対して、抗精神病薬治療継続による1年以内の再発予防のNNTは2.5」となります。
RR, OR
リスク比(Risk Ratio, Relative Risk, RR。相対リスク、相対危険、相対危険度とも)はイベント発生率の比です。暗算でおおよその値が計算できるのが長所です。例えば、CER = 60/100, EER = 20/100の場合、RR = EER/CERなので、「安定した統合失調症のある患者さんに対して、抗精神病薬治療を継続すると、何も薬物治療をしないのに比べて、1年以内の再発リスク比が0.33である」となります。
オッズ比(Odds Ratio, OR)はイベント発生オッズの比です。オッズ計算は慣れていないと難しく、慣れていても暗算は難しいというのが短所です。「安定した統合失調症のある患者さんに対して、抗精神病薬治療を継続すると、何も薬物治療をしないのに比べて、1年以内の再発オッズ比が0.17である」となります。
RRもORもARDよりも異質性が低い[48]、つまり、異なる集団に当てはめるのにより適切であることが知られています。RRとORのどちらが異質性が低いかは議論があります[49][50]。
ORの方がRRよりも効果が大きい印象を与えがち(上記でも、0.33倍 vs 0.17倍)であるためにRRの方が良いと言われることもありますが、RRを使うと臨床家は自信を持って(!)効果を過大解釈してしまいます[51]。ORは暗算はしにくいですが、計算上の特性がRRよりも優れており[52]、統計家に好まれる傾向があります。
RRやORを用いるときは次の2点に注意しましょう。
① RRやORをそのまま解釈するのではなく、CERとEERに換算して解釈する
② ORがRRとは異なることに注意する(EER = CER * RR, EER ≠ CER * OR)
RRとCERを掛け算をしてEERを計算するのは暗算でもできますが、ORとCERからEERを算出するのは暗算では難しいです。下記の対応表を参考にしてください。左の列からOR、上の行からCERを選択肢、それらが交わる場所の数字がEERです。例えば、OR = 1.8、CER = 0.30であれば、EER = 0.44です。


RRやORの相場感を把握しておくと、あまりに大きくて怪しい研究結果に騙されなくなります。RRで2、ORで3以上というのは稀です。これ以上の効果を報告しているものは要注意です。
連続変数
連続変数は、体重や抑うつ症状尺度のように連続的な数字を取る尺度のことです。SR&MAでは連続変数をどのように統合するのかを確認しましょう。
連続変数の評価として、臨床的な最小重要差(Minimally Important Difference, MID)[53]があります。MIDは、患者さんにとって、最小でどれだけの変化があれば意義があるのかを示したものです。MID以上の変化があった患者さんの割合を比較することで、介入ごとの意義を比較することができます。なお、SR&MAの結果は群間差で示されます。群内差であるMIDと直接比較することは広く行われていますが、不適切です[54]。例えば、久しぶりに会う親戚の子供が大きくなったと感じられる最小身長差(≒MID)が3cmだとします。そしてその子が5cm大きくなった、しかし、他の同級生と比較して身長の伸びと変わらなかった(群間差0cm)とします。SR&MAの結果とMIDを比較するのは、同級生との差(0cm)を違いが感じられる最小身長差(3cm)と比較するようなものです。5cm大きくなったのに、同級生とは差がないから変化がないというのはおかしいでしょう。
MD
平均差(Mean Difference, MD)は介入群と対照群の平均の差です。例えば介入群での体重変化が-1kg、介入群での体重変化が-3kgだとします。MDは-2kgと言うことになります。
MDを使って情報を統合できるのは、同じ単位が用いられている時です。重さなどであれば同じ単位に変換することもできますが、抑うつ症状尺度などの場合は単純に同じ尺度に変換することは難しいです。
また、仮に同じ尺度が用いられていたとしても、その単位が臨床的に直感的に理解しやすいとは限りません。例えば統合失調症の臨床試験ではPANSSという尺度がよく用いられますが、臨床的にこれを用いる事はありません。きちんと計測するのに30分以上かかってしまうからです。そのためPANSSがどれだけ変わったかという値を示されても、いまいち臨床的な意義はわかりません。
MDを使うのは、①同じ単位が使われていて、②その単位が解釈しやすい場合です。例えば、体重変化のkg、BMI、HbA1cの%や血糖値、心電図異常を測るためのQTc(msec)、睡眠尺度の時間などです。
SMD
標準化平均差(Standardised Mean Difference, SMD)は、平均差を標準偏差で割ったものです。異なる尺度が用いられている場合や、同じ尺度が用いられていても臨床的な意義が解釈しづらい場合に用いられます。
日本人に1番馴染みがあるSMDの例は偏差値でしょう。偏差値50がSMD0に相当し、偏差値10の違いがSMD1に相当します。SMDの解釈では、0.2が小さい効果、0.5が中等度の効果、0.8が大きな効果、というざっくりとした目安が用いられます[55]。Cohenが適当にこれらの数字を選んだわけではなく、大体中等度の差であれば、目で見て取れるというのが根拠になっています。例としては、14歳と18歳の少女の身長差などが提示されています。日本人男性の身長の標準偏差が5-6cmなので、3cm違えば身長差がわかるだろ
う、という判断です。この目安は簡便で有用ですが、臨床的な意義とは必ずしも対応していないことに注意が必要です。
SMDについても、相場感を把握しおくことが大事です。SMDが1を超える介入は精神科に限らずほとんどありません[56]。1を大きく超えるような治療効果には要注意です。
SMDをCER&EERに変換する
SMDをORにざっくりと換算することができます[57]。SMDとCERからEERを計算することができる対応表を掲載します。ざっくりとした概算ですが、概ね合っています。例えばうつ病に対する抗うつ薬のSMDは0.3です[58]。2ヶ月での改善を示すのがプラセボで100人に30人、抗うつ薬で100人に45人と言われています。対応表でSMD = 0.3かつCER = 0.30の交点を見ると0.42となっており、ほぼ一致しています。統合失調症に対する抗精神病薬の効果はSMD = 0.47で、プラセボでの改善率が100人に30人とすると抗精神病薬では50人です[59]。対応表でSMD = 0.5かつCER = 0.30の交点を見ると0.51となっており、ほぼ一致しています。
なお、概算表は正規分布などの仮定に基づいており、概ねSMDが1以内、CERが0.20から0.80であれば精度が高いですが、極端な値ではずれが大きくなることに注意してください。


不確実性を把握する
ここまでは効果量の代表的な値を臨床的意義が解釈しやすい形にする方法を確認しました。効果量の代表的な値だけでなく、その不確実性も評価する必要があります。不確実性の評価としては95%信頼区間(Confidence Interval, CI)や95%予測区間(Prediction Interval, PrI)を使います。
信頼区間
95%信頼区間は、同じ方法で繰り返し実験をして信頼区間を作成した場合にそのうちの95%の区間が真の値を含むように設計された区間です[60]。数式で表すと下記のようになります。

は推定値、z は 標準正規分布の臨界値、SEは推定値の標準誤差です。標本数が増えればSEが狭まるので、メタアナリシスに含まれるRCTの数と規模が増えるほど、標準誤差SEが小さくなり、その効果量の推定値が一定の値
に収束します。
予測区間
95%信頼区間は、メタアナリシスに含まれた研究の異質性(ばらつき)を踏まえて、次にメタアナリシスに含まれたRCTと類似の臨床試験を行った場合に、その推定値がどの範囲に含まれるかを示した区間です。数式で表すと下記のようになります。

は推定値、z は 標準正規分布の臨界値、SEは推定値の標準誤差、τは異質性の指標[61]です。メタアナリシスに含まれるRCTの数と規模が増えて、標準誤差SEがほぼゼロになっても、異質性τの要素が残るため、一定の幅を保ちます[62]。
信頼区間がこれまで行われた臨床試験の結果の推定値がどこにあるかを示すのに対して、予測区間は次に同じような臨床試験を行ったときにどの範囲に推定値がくるかを表しています。将来的な結果を表現しているものは予測区間なので、予測区間の方が信頼区間より臨床的には重要です。
ネットワークメタアナリシスではランキングに注目しすぎない
ネットワークメタアナリシス(NMA)は3つ以上の介入を比較できるメタアナリシスの手法です。A対BとB対Cの効果を統合することで、A対Cが直接比較されていない場合でも、A対Cの効果を推定できます。A対Cが直接比較されている場合は、直接比較のデータだけではなく、間接比較のデータも統合します。
NMAは3つ以上の介入を順位付けすることができます。ランキングのための指標はいくつかあり、ベイズ主義のSUCRAと頻度主義のP-scoreが有名です。基本的にはどの指標もどの介入が「よいか」のランキングですが、指標ごとに意味が異なり、結果も微妙に異なります[63]。2025年9月7日現在のJ1の順位は勝ち点で京都サンガがトップです。得失点差でも得点数でもトップですが、失点ではヴィッセル神戸がトップです。
ランキングを見るとどうしても1位の介入を優先したくなりますが、2位以下との差がほとんどないこともよくあります。J1は毎年のように優勝チームが変わります。スコットランドのセルティック、ドイツのバイエルン・ミュンヘンのように、10年中8−9回は優勝するという1位とは意味合いが違います。
ランキングに基づいた解釈をしている問題のあるNMAとして、2011年にBMJに掲載された、全般性不安障害に対する薬物療法のNMA[64]があります。ランキングが1位になった抗うつ薬を推奨していますが、根拠となった一次研究が2つしかありません。すべての薬剤で最少でした。規定打席数に到達していない打者を打率ランキングでトップにするのと同じようなことをしています[65]。また、95%信頼区間は他の薬剤と大きくオーバーラップしており、相互に差はありませんでした。J1のように差が拮抗しており、毎年順位が入れ替わる可能性が高く、1位が絶対的存在とは言えなそうです。
実力が拮抗したスポーツリーグでは細かな順位はブレがありうるものの、上位・中位・下位というグループ分けは妥当でしょう。NMAでも順位付けをするのではなく、カテゴリー分けすることができます[66][67]。カテゴリー分けはリーグ表を見ながら進めます。まず、すべての介入をカテゴリー0として、対照群を決めます。次に、対照群と比較してp < 0.05となる差がつくものをカテゴリー1に分類します。さらに、カテゴリー1の中でp < 0.05となる差がつくものをさらに上のカテゴリー2に分類していきます。これを繰り返します。この方法の利点は、機械的に分類できることです。欠点は、p = 0.05の閾値にやや引っ張られすぎなところです。
効果量のエビデンスの確実性を定性的に評価する
効果が大きいが信頼できないエビデンスもある
SR&MAの効果量を定量的に評価するだけでなく、その確実性[68]を定性的に評価する必要もあります。効果量が大きくとも、その根拠となるエビデンスの確実性が低いということが十分にあり得ます。信じられないほど大きな効果を謳っていても、根拠となるエビデンスが数例レベルのごくごく小規模なランダム化比較試験に過ぎないことがよくあります。
ここでは、SR&MAの結果の確実性をどのように評価したら良いのかを紹介します。
エビデンスの確実性をGRADEを用いて評価する(著者が!)
GRADE(Grading of Recommendations Assessment, Development and Evaluation)[69]は、SR&MAの結果の確実性を評価するための枠組みです[70]。GRADEの評価をするのはSR&MA著者の責任であり、その質を確認するのは本来編集者の責任です。読者として確認すべきことは次の3点です。
①そもそもGRADE評価をしているか
②GRADE評価が高すぎないか
③(できれば)GRADEの5領域の評価が妥当か
SR&MAの結果の確実性をGRADEを用いて評価することはSR&MAの欠かせない要素ですが、残念ながら行われていないものも散見されます。GRADE評価がされていないのであれば、その時点でそのSR&MAは読む価値がない可能性が高いです[71]。
GRADEではエビデンスの確実性を最終的にHigh, Moderate, Low, Very lowの4段階で評価します。ランダム化比較試験から構成されるエビデンスはまずHighと評価をしたうえで、5つの領域の評価をして適宜評価を下げていきます。ほとんどの場合はLowまたはVery lowという評価になります。Highという評価はむしろ、GRADEの評価の仕方が甘いのではないかと疑ってかかったほうが良いです。
GRADEでは5つの領域の評価を行い最終的な判断をします。SR&MAの読者としてGRADEの5領域を検討する必要性はありませんが、5領域が何を評価しているのかを把握しておきましょう。
GRADE-1: Risk of bias(バイアスリスク)
GRADEの1つ目の領域がバイアスリスク(Risk of Bias)です[72]。SR&MAに組み入れられた一次研究であるRCTのバイアスリスクを評価します。ここでのバイアスとは、理想的な大規模RCTの結果と(偶然ではなく)系統的な誤差があることを指します。
SR&MAに組み入れられた一次研究のバイアスリスクを評価します[73]。2025年時点では、RoB2と呼ばれる評価ツール[74]がスタンダードです。RoB2はアウトカムごと、RCTごとに評価します。RoB2自体も5つの領域があり、それらを踏まえて全体としてバイアスリスクを3段階で評価します[75]。下記のように信号機のようなプロットでまとめられることが多いです。

バイアスリスクがあることとバイアスがあることは必ずしも一致しません。そのため、RoB2が高リスクな一次研究が多くても、GRADEのRisk of Bias領域でダウングレードする必要がない、ということもありえます[76]。例えば、RoB2が低リスクな一次研究も十分にあり、高リスクな研究を組み入れても大きく結果が変わらない場合などです。
SR&MAの読者としては、RoBの評価がきちんと報告されているか確認します。
RoB2の各領域について簡単に確認しておきましょう。SR&MAを読み始めたばかりの方は、細かいところは気にせず、ざっくりとこういうものがあるのだなということを理解しておけばOKです。RoB2の5領域は、RCTのタイムラインに沿って並べられています。
RoB2 Domain 1: ランダム割り付けの過程から生じるバイアス
RoB2の1つ目の領域はランダム割り付けの過程から生じるバイアスです。割り付けの順序がランダムか、割り付けの順序が割り付けが決定するまで研究者にわからない状態であったか(Allocation concealment)、割り付けのバランスが偶然誤差の範囲内であったかを評価します。
ランダム割り付けの過程におけるバイアスリスクが高い例として、入院日の偶数奇数や患者番号などで割り付けを決めており、試験への参加が決まる前からどの群に割り付けられるかが研究者にわかっている、というものがあります。これでは交絡因子の影響を取り除くというRCTの最大のメリットが保証されません[77]。
RoB2 Domain 2: 意図した介入からの逸脱によるバイアス
RoB2の2つ目の領域は、意図した介入からの逸脱によるバイアスです。この「意図した介入からの逸脱」というのは、RCTの文脈だから起きた脱落かどうかの評価が必要です。例えば、副作用が出たために治療を変えるというのはRCT以外の臨床現場でも当然起こり得るため、ここでの「意図した介入からの逸脱」には含まれません[78]。
RoB2 Domain 3: データ欠損によるバイアス
RoB2の3つ目の領域は、データ欠損によるバイアスです。例えば1000人規模のRCTでも、その半分の人が追跡不能になると、残りの半分の人のデータをいくら解析したところで、追跡不能になった人の結果次第で結論がいくらでも変わってしまいます。
RoB2 Domain 4: 結果の測定におけるバイアス
RoB2の4つ目の領域は、結果の測定におけるバイアスです。例えば群ごとに測定方法や測定回数が異なるとバイアスリスクが高いです[79]。他にも、評価者が介入の種類を知っていて、かつ、知っていることが評価に影響する可能性が高いときもバイアスリスクが高くなります。盲検化は実はそこまで重要ではないのではないかという見直しもされています[80]。盲検化がされていないからといって必ずしもハイリスクとはなりません。特に、死亡/生存には影響しないと考えてよいでしょう。抑うつ症状の評価について、患者による評価と、第3者による評価を比較した研究では、患者評価<盲検化された第3者評価<盲検化されていない第3者評価の順で効果が大きく評価されていました[81]。患者本人の評価よりも第3者評価のほうが客観的に聞こえますが、研究者/治療者の方が治療効果を大きく評価したいのかもしれません。
RoB2 Domain 5: 結果報告の選択におけるバイアス
RoB2の5つ目の領域は、結果報告の選択におけるバイアスです。測定方法、測定時点、解析方法などが複数あり、恣意的なものだけが報告されていないかを確認します。ただし、仮に報告が恣意的に選択されていたとしても、もともとSR&MAで優先的に探していたものが報告されている場合は低リスクという評価になりえます。
RoB2 Overall Risk of Bias: バイアスリスクの総合評価
RoB2の5つの領域の評価を踏まえてバイアスリスクの総合評価をします。全ての領域が低リスクの場合には総合評価も低リスクです。高リスクが1つでもあれば高リスク、中リスクが1つでもあれば中リスク、中リスクが3-4以上あれば高リスクです。
GRADE-2: Imprecision(非精確性)
GRADEの2つ目の領域はImprecision(精確性)です[82]。「正確性」が真の値にどれだけ近いかを意味するのに対して、「精確性」は信頼区間がどれだけ狭いかを意味します。ここでは、95%信頼区間が十分狭いか、臨床的に判断が分かれる閾値を含んでいないかを評価します(例:有益かもしれないが有害かもしれない、一定以上有益かもしれないがあまり意味のない程度かもしれない、という場合には評価が下がる。)。また、効果が大きい場合、根拠となった研究の参加者数が少なくないか確認します(1群あたり400人以上いたらOKとすることが多いです)。
GRADE-3: Indirectness(非直接性)
GRADEの3つ目の領域はIndirectness(非直接性)です[83]。SR&MAのPICOと組み入れられた一次研究のPICOの違いによる影響を評価します。プロトコルで定めたPICOに合致する一次研究が十分な数見つかれば問題がありません。非直接性に関しては別途「論文が臨床疑問に対応するかを確認する」の章で詳しく解説していますのでここでは割愛します。
GRADE-4: Inconsistency(非一貫性、不一致性)
GRADEの4つ目の領域はInconsistency(非一貫性)です[84]。治療効果の異質性(Heterogeneity)について評価します。一次研究ごとの結果の信頼区間がある程度オーバーラップしていたら大きく問題はありません。一部は有益であることを示唆し、一部は有害であることを示唆している場合など、臨床的な意義の判断が変わりうるような場合は注意が必要です。サブグループ解析など、異質性の原因を検討します。I2などの指標も参考になりますが、異質性の指標だけで判断すべきではありません。予測区間も参考になります。
GRADE-5: Publication bias(出版バイアス)
GRADEの5つ目の領域は出版バイアス(Publication bias)です[85]。出版バイアスは、研究者や編集者にとって都合の良い結果の論文が出版される一方で、都合が悪い結果の論文が出版されないことによるバイアスです。ファネルプロットと言われる図を使ったり、統計学的な検定を行うことがありますが、出版バイアスの検出力は高くありません。また、一次研究が10本以上ないと検定を行うことは不適切とされています。
出版バイアスを否定することは難しく、できるのは明らかな出版バイアスがないかどうかを確認すること程度です。規制当局への届け出を確認したり、臨床試験登録を確認するのも重要です。
ネットワークメタアナリシスではCINeMAが使われる
ネットワークメタアナリシスの確実性についてはCINeMA(Confidence In Network Meta-Analysis)が用いられます[86][87]。CINeMAでは多少の名称変更[88]はあるものの概ねGRADEと同じ項目を評価します。ネットワークメタアナリシスに特有の項目としてIncoherenceというものが追加されています。Incoherenceは次の推移性についての章で解説します。
用量反応メタアナリシスでは専用のGRADEは2025年現在ではまだない
用量反応メタアナリシスは、2つ以上のことなる用量の介入を比較した試験を集めて用量反応曲線を推定するメタアナリシスです[89]。GRADEを応用する試み[90]もありますが、2025年9月時点で用量反応メタアナリシス専用のGRADEはありません。私が複数の用量反応メタアナリシスを実施してきた経験からは、下記のことに注意する必要があると考えています。
事前に規定された用量が用いられているか
用量反応メタアナリシスの用量として、実際に使われた平均用量を使いたくるかもしれません。実際に使われた用量というのは、ランダム割り付けされた後の情報(患者さんの改善具合や副作用)が反映されているため、因果推論に用いるのは不適切です。固定用量の試験に限定してメタアナリシスを実施するのが理想的ですが、それが困難な場合は、事前に規定された容量範囲の最大値か中央値を使うなど、ランダム割り付け以前に決められていた値を用いる必要があります。
各用量に割り付けられた人たちは似ているか(推移性)
ネットワークメタアナリシスに含まれたRCTの中ではランダム割り付けがされていますが、ネットワークメタアナリシスに組み入れられた介入ごとにはランダム割り付けがされていません。そのために、推移性を確認する必要があります。(「ネットワークメタアナリシスでは推移性(Transitivity)の仮定を確認する必要がある」の章参照)用量反応メタアナリシスにおいても同様のことが言えます。プラセボ(= 0mg)が用いられている試験ばかりであれば大きく問題ないかもしれませんが、各用量に割り付けられた患者層が十分に似ているかの確認がされていることが望ましいと思います[91]。
関心のある用量で調べられているか(非直接性)
治療域とされる用量以外のデータも用いて解析できるのが用量反応メタアナリシスのメリットですが、関心のある範囲のデータが少ないと、その範囲の確実性は下がります[ref][92]。
Nの確認も大事
SR&MAの結果の確実性の評価としてGRADEやCINeMAを行っていないのは問題ですが、これらを行っていたからと言って評価が妥当かは別問題です。SR&MAの読者としてGRADEやCINeMA評価をし直すというのは必要な情報が十分に手に入る保証もなく、手に入ったとしても再評価にはかなりの時間がかかり、非現実的です。
SR&MAの読者として、エビデンスの確実性を手軽に評価するにはどうしたら良いでしょうか。確実な方法はありませんが、私個人の意見としては、エビデンスに含まれる対象者の数を確認するのがおすすめです。基本的には小規模な臨床試験ほど効果が大きく報告されがちなことが知られており、そのようなバイアスに対するチェック機能は果たしてくれるはずです。GRADEでは、各群に400人というのが1つの閾値として提唱されています[93]。
ネットワークメタアナリシスでは、MAの結果に組み入れられた研究数や患者数が表示されていないこともあり、各群に何人が振り分けられているのか意識しないと分かりづらいです。(下記図参照[94])注意してください。こちらも最低人数はきちんと決まってはいませんが、100人を切っているものは割り引いて評価する必要があるでしょう。

ネットワークメタアナリシスでは推移性(Transitivity)の仮定を確認する必要がある
ネットワークメタナリス(NMA)は3つ以上の介入を比較することができる統計学的な手法です。多くの臨床判断では、3つ以上の介入の中からどの介入をするかを判断する必要があるので、NMAの重要性が高くなってきています。しかしNMAは、ペアワイズ・メタアナリシスよりも、統計学的に複雑で、かつペアワイズ・メタアナリシスは不要であった推移性(Transitivity)の仮定があります[95]。ペアワイズ・メタアナリシスにおける2つの比較の間は、ランダム割付がされていますが、NMAの各介入ごとには、ランダム割り付けされていません。
各比較の間で効果修飾因子の分布に偏りがあると、NMAでエビデンスを統合するのが不適切です。効果修飾因子とは、効果の大きさに影響を与える因子のことです[96]。例えば、薬Aとプラセボ、薬Bとプラセボを比較したRCTのエビデンスがあるとして、薬Aと薬Bの比較をプラセボを介して行いたいとします。この時、薬A対プラセボの試験が効果が出やすい条件で行われていて、薬B対プラセボの試験が効果が出にくい条件で行われていたとしたら、プラセボを介して薬Aと薬Bを比較するのはフェアではありません。
(適切に計画・実施された)RCTではランダム割り付けを行うことで交絡因子の影響を消すことができます。RCTのペアワイズ・メタアナリシスでは個々のRCT内で交絡因子の影響がなく内的妥当性が強固だとしても、同じ比較内に効果修飾因子のバラツキが異質性(Heterogeneity)に繋がります[97]。NMAでは、比較ごとに効果修飾因子のバラツキが大きいと、NMAの大前提である推移性が崩れます。どうしたらよいでしょうか。

推移性の仮定を直接証明することはできません。複数の方法を組み合わせて多角的に検証する必要があります。まず、プロトコルの時点で、NMA全体が一つの大きなマルチアームRCTであると見做せる必要があります。次に、組入研究を見つけた時点で、効果修飾因子が各比較に均等に分布していることを確認します。最後に、NMAの解析結果において、直接比較の結果と間接比較の結果が矛盾していないかを確認します[98]。順番に見ていきましょう。
ネットワーク全体で1つのマルチアームRCTと見做せる(Jointly randomizable)
NMAは、1つの大きなマルチアームRCTであるかのように見做せる必要があります。NMAで組入対象となる患者さんが、ランダム割り付けされ、NMAで取り扱うどの介入にも割り付けられる可能性がある必要があります。Jointly randomizableかどうかの判断は定性的な、臨床的な判断です。例えば、ある悪性腫瘍の治療法で、外科手術、化学療法、放射線療法の選択肢があるとしても、病期ごとに選択される治療法が異なるのであれば、1つのNMAで比較するのは不適切です。
臨床疑問に答える理想的なRCTを考えるという意味で、観察研究で因果推論を試みるTarget Trial Emulation[99]の考え方に似ています。因果推論を行う上で、理想的なRCTがどのようなものかを考えることは、RCTを実施するときだけでなく、SR&MAを実施するときにおいても重要であると言えそうです。
話題になるNMAの中にはこのJointly randomizableかという条件が満たされていないものが散見されます。例えば、うつ病に対する運動の効果を検証したNMAでは、抗うつ薬とダンスが介入に含まれていました[100]。うつ病の患者さんで運動が有効そうだと判断した人に、ジョギング・筋トレ・ダンスなどのうちどれにするかを考えるという状況はあり得ると思いますが、抗うつ薬とダンスとどちらを処方するか悩むという状況は考えづらいと思います。
効果修飾因子が各比較間で均等に分布している
効果修飾因子(Effect modifier)とは効果の大きさに影響与える因子のことです。薬A対プラセボは効果が出やすい条件で、薬B対プラセボは効果が出にくい条件でRCTが行われていたとしたら、薬A対薬Bの効果をプラセボを介して推定するのは不適切です。
年齢・性別・重症度などの分布を確認することが多いですが、これらが効果修飾因子ではない場合は分布が異なっていても問題ありません。例えば、性別で効果が変わらない場合、薬A対プラセボが全て女性を対象としたRCTで検証されていて、薬B対プラセボが全て男性を対象としたRCTで検証されていたとしても、薬A対薬Bの効果をプラセボを介して推定することに問題はありません。
具体的には、比較ごとの効果修飾因子の分布をBox plotで視覚的に確認します[101]。全ての分布が一致するということはなく、大きく問題がなさそうかをある程度主観的に判断することになります。
直接比較と間接比較の結果が一致している(Incoherence)
推移性の仮定が妥当ではない場合、NMAの結果に不一致(Incoherence)が起きることがあります[102]。つまり、直接比較の結果と間接比較の結果が矛盾するということが起きえます。✊️グーは✌️チョキに勝ちますが、✊️グーは🖐️パーに負け、🖐️パーは✌️チョキに負けます。直接勝負では勝ち、間接勝負では負ける、という矛盾が生じるのです。
NMAにおいては、この不一致を統計学的に検証する方法がいくつかあります[103]。NMAの結果の質を評価するCINeMAでもIncoherenceの評価は必須です。ただし、Incherenceの検出力は高くないので注意が必要です。つまり、Incoherenceが検出できなかったからといって、推移性の仮定が妥当であるとまでは言えません。逆に多少不一致があったとしても、効果の方向性が同じ場合は、そこまで気にしないという選択肢もあります[104]。
SR&MAの質 (Credibility) を評価するときは
ここまではSR&MAの結果の確実性(Certainty, confidence)の評価をとりあげました。本来は、SR&MAそのものの質(Credibility)に関しても評価する必要があります[105]。トップジャーナルやガイドラインに取り上げられるSR&MAは比較的質が高いと考え、スキップしました。実際は必ずしも質を担保するものではないことに注意が必要です[106]。
SRの評価ツールとしてはROBIS[107]やAMSTAR 2[108]があります。内容は大きくオーバーラップしているので片方を見たら十分です。ここではROBISを取り上げます。

ROBIS (Risk Of Bias In Systematic reviews)
ROBISは3段階から構成されています。第1段階ではそのSR&MAが自分の疑問とどの程度関連するかを確認します。第2段階でSR&MAの評価をして、第3段階で総合評価をします。ここでは第2段階と第3段階について取り上げます。
ROBIS phase 2-1. Study eligibility criteria (研究の適格基準)
ROBISの最初の領域では、一次研究の適格基準が事前に定められており、明確で、レビュークエスチョンと照らし合わせて適切かどうかを評価します。事前にプロトコルが定められており、事前登録がなされているかを確認しましょう[109]。
ROBIS phase 2-2. Identification and selection of studies(研究の特定と選択)
ROBISの2つ目の領域では、一次研究を適切に見つけることができているかを確認します。複数のデータベースを検索しているか(Cochrane Handbookでは少なくともMEDLINE [PubMed]とCochrane CENTRALを検索することが推奨されています)、出版されている論文以外も探したか(薬物の場合、規制当局のウェブサイトを確認したか)を確認します。手間はかかりますが、検索式を確認するのも有用です。検索式にアウトカムが含まれていたり、NOT式が用いられていると、適切な一次研究が検索から漏れるリスクが高いです[110]。スクリーニングはヒューマンエラーがつきものなので、少なくとも2人でダブルチェックをしながら進める必要があります。AIの活用が今後増えてくることが予想されますが、その場合はきちんと精度が確認された手法であることが示されている必要があります。系統的レビューが不適切であればその後いくら統計解析を適切に行なっていても意味がありません。
ROBIS phase 2-3. Data collection and study appraisal(データ収集と研究の評価)
ROBISの3つ目の領域ではデータ収集と研究の評価、つまり、スクリーニングとバイアスリスク評価について確認する。データ抽出についても2人以上でダブルチェックしながら進めていることが重要です。2025年現在においてはAIではデータ収集は十分な精度で行えません。一次研究の特徴がきちんと報告されており、組み入れられた患者の特徴や行われた研究セッティングの特徴がわかるかも確認が必要です。バイアスリスクもRoB2などのツールを用いて、2人で評価していることが望ましいです。
ROBIS phase 2-4. Synthesis and findings(統合と結果)
ROBISの4つ目の領域ではメタアナリシスについて評価します。事前に決められた解析が全て実施されて報告されているか、プロトコルとの違いがあれば十分な説明がされているかを確認します。GRADEで評価するような、一次研究のバイアスリスク、異質性の評価、出版バイアスの評価なども確認します。
ネットワークメタアナリシスの場合はRoB-NMA[111]を代わりに使うことが提唱されています。ほとんどの内容はCINeMAや推移性の仮定の評価と重複しているので割愛します。
ROBIS phase 3. Risk of bias in the review(レビューのバイアスリスク)
ROBISの最後は、SR&MAの結論がここまでの評価で明らかになった懸念を踏まえたうえで適切に導かれているかを判断します。完璧な一次研究がたくさんあるSR&MAはまずありません。明らかになった懸念点を踏まえたうえで結論が導かれているかどうかが大事です。いわゆる「統計学的有意差」の有無に基づいて結果を強調するのは避けるべきとされています。
患者さんへの適用を考える
患者さんにとっての優先事項は何か改めて確認する
患者さんにエビデンスの適用を考えるときに、改めて患者さんにとって何が重要か確認しましょう。有効性も重要ですが、例えば長期にわたって薬物療法が必要な統合失調症等の場合は有効性も重要ですが、副作用が大きく問題がないと言うことも重要です。患者さんによってどの副作用が最も避けたいものかと言うのは違うでしょう。例えば統合失調症に対してオランザピンはとても有効ですが、体重増加の副作用が出ることが多くあり、体重増加を嫌う患者さんには使いづらいです。
患者さんのCERとEERを見積もる
SR&MAの結果が目の前の患者さんに適用可能かどうかを確認します。(外的妥当性に関しては「論文が臨床疑問に対応するかを確認する」を参照)効果修飾因子の影響が大きく、SR&MAに組み入れられた患者さんと眼の前の患者さんで効果の方向性まで異なりそうな場合は適用できないでしょう。効果修飾因子の影響があったとしてもそこまで大きくないであろう場合はSR&MAの結果を適用してよいでしょう[112]。効果の方向性が異なるほどではないにせよ、効果修飾因子の影響性が無視できなそうである場合は、SR&MAの結果を使うと目の前の患者さんにとっては過大評価になるかもしれないことに注意しながら解釈します。
臨床経験や予後予測の研究に基づいて、眼の前の患者さんのCERを決めます。SR&MAに組み入れられた患者さんと概ね特徴が同じであれば、SR&MAの結果を用いてもよいでしょう。あくまでも未来についての予測であり、ざっくりとした値でよいでしょう。介入を提供するのであれば、CERは観測することもできません。
臨床経験・慣習・その他のエビデンスとのバランスをとる
SR&MAの結果だけでなく、自分の臨床経験、先輩からの逸話、診療環境などを踏まえて、総合的に患者さんの価値観に沿ってどの治療法がよいかを判断します。
SR&MAはあくまでも参考資料の1つを提供するに過ぎません。ガイドラインや、臨床上の常識に反するものがSR&MAで推奨されている場合は慎重に吟味し、安易に飛びつかないほうが良いでしょう。ガイドラインや、臨床上の常識の範囲内で、SR&MAも支持しているものを優先するようにしましょう。
振り返る
現在入手できる最善のエビデンスに基づいて、患者さんとの価値観を尊重したベストな治療介入を選択したとしても、どのような結果になるかは実際に治療してみないと分かりません。エビデンスをきちんと読めば、一番有効性が高い介入を選択しても改善しない人がいるのは明らかです。治療反応をしっかりと見極めて、その治療法を継続するのか切り替えるのかなどを判断していくことが必要です。
<後編>SR&MAを実施する
作成は未定です。
[1] Sackett DL. Evidence-based medicine. Semin Perinatol. 1997;21(1):3-5. doi:10.1016/s0146-0005(97)80013-4.
[2] Tikkinen KAO, Guyatt GH. Understanding of research results, evidence summaries and their applicability-not critical appraisal-are core skills of medical curriculum. BMJ Evid Based Med. 2021;26(5):231-233. doi:10.1136/bmjebm-2020-111542
[3] Patient, Pariticipantなどとも言われますが、いずれにせよ頭文字はPで、対象者のことです。
[4]因果推論の識別3条件のうち、Consistency(一致性)に関わってきます。ただし、SR&MAの文脈においてはConsistencyは別の意味で用いられるので要注意です。
[5] ただし、通常治療(Treatment As Usual, TAU)が何を意味するかは確認が必要です。
[6] 無治療などよりも待機群の治療効果は悪く、介入効果を大きく見せる傾向があります. Furukawa TA, Noma H, Caldwell DM, et al. Waiting list may be a nocebo condition in psychotherapy trials: a contribution from network meta-analysis. Acta Psychiatr Scand. 2014;130(3):181-192. doi:10.1111/acps.12275
[7] 不眠症における睡眠衛生指導など
[8] Hróbjartsson A, Gøtzsche PC. Placebo interventions for all clinical conditions. Cochrane Database Syst Rev. 2010;2010(1):CD003974. Published 2010 Jan 20. doi:10.1002/14651858.CD003974.pub3
[9] Investigators TCAST (CAST). Preliminary Report: Effect of Encainide and Flecainide on Mortality in a Randomized Trial of Arrhythmia Suppression after Myocardial Infarction. N Engl J Med. 1989;321(6):406-412. doi:10.1056/nejm198908103210629
[10] Kovic B, Jin X, Kennedy SA, et al. Evaluating Progression-Free Survival as a Surrogate Outcome for Health-Related Quality of Life in Oncology: A Systematic Review and Quantitative Analysis. JAMA Intern Med. 2018;178(12):1586-1596. doi:10.1001/jamainternmed.2018.4710
[11] Liu ITT, Kesselheim AS, Cliff ERS. Clinical Benefit and Regulatory Outcomes of Cancer Drugs Receiving Accelerated Approval. JAMA. 2024;331(17):1471-1479. doi:10.1001/jama.2024.2396
[12]死亡診断書に「疾患の終末期の状態としての心不全,呼吸不全などは記載しない」旨の注意書きが1995年に追加されることが前年から周知されたために、前後して心不全による死亡数が激減した。
[13] 疾患特異別死亡を減少させることを根拠に推奨されているがん検診も、全死亡を減らす(=寿命を延ばす)ことが示されているものは大腸がんに対するS状結腸鏡検診だけです. Bretthauer M, Wieszczy P, Løberg M, et al. Estimated Lifetime Gained With Cancer Screening Tests: A Meta-Analysis of Randomized Clinical Trials. JAMA Intern Med. 2023;183(11):1196-1203. doi:10.1001/jamainternmed.2023.3798
[14] Cordoba G, Schwartz L, Woloshin S, Bae H, Gøtzsche PC. Definition, reporting, and interpretation of composite outcomes in clinical trials: systematic review. BMJ. 2010;341:c3920. Published 2010 Aug 18. doi:10.1136/bmj.c3920
[15] Matthias K, Rissling O, Pieper D, et al. The methodological quality of systematic reviews on the treatment of adult major depression needs improvement according to AMSTAR 2: A cross-sectional study. Heliyon. 2020;6(9):e04776. Published 2020 Sep 1. doi:10.1016/j.heliyon.2020.e04776
[16] 米国予防医療専門委員会(United States Preventive Services Task Force, USPSTF)は大腸がん検診を推奨すると言う立場をとっていますが、2019年にBMJに掲載されたガイドラインではリスクが高くない人には行わないことが弱く推奨されています. US Preventive Services Task Force, Davidson KW, Barry MJ, et al. Screening for Colorectal Cancer: US Preventive Services Task Force Recommendation Statement. JAMA. 2021;325(19):1965-1977. doi:10.1001/jama.2021.6238; Helsingen LM, Vandvik PO, Jodal HC, et al. Colorectal cancer screening with faecal immunochemical testing, sigmoidoscopy or colonoscopy: a clinical practice guideline. BMJ. 2019;367:l5515. Published 2019 Oct 2. doi:10.1136/bmj.l5515
[17] EBMに対するよくある批判として、EBMは画一的な医療を提供するというものがありますが、的外れです。
[18] SR&MAの質をCredibility、SR&MAの結論の確実性をConfidenceと呼び、区別します。名称はともかく、異なる評価項目があるというのがポイントです. Murad MH, Montori VM, Ioannidis JP, et al. How to read a systematic review and meta-analysis and apply the results to patient care: users’ guides to the medical literature. JAMA. 2014;312(2):171-179. doi:10.1001/jama.2014.5559
[19] 中間因子を活用したフロントドア基準という方法もありますが、割愛。Pearl J. Mediating Instrumental Variables. Technical Report R-210, Cognitive Systems Laboratory, UCLA Computer Science Department. 1993. https://ftp.cs.ucla.edu/pub/stat_ser/r210.pdf. 井上 浩輔,杉山 雄大,後藤 温. 中間因子を用いてインが効果を推定する. 医学界新聞. 2022. https://www.igaku-shoin.co.jp/paper/archive/y2022/3464_05
[20] 心の中から「なるほど完璧な作戦っスねーーーっ 不可能だという点に目をつぶればよぉ~」と東方仗助の声が聞こえます。
[21] Collins R, Bowman L, Landray M, Peto R. The Magic of Randomization versus the Myth of Real-World Evidence. N Engl J Med. 2020;382(7):674-678. doi:10.1056/NEJMsb1901642
[22] Henderson C. Implementation research in mental health: meanings of the term real world. Lancet Psychiatry. 2024;11(5):322-324. doi:10.1016/S2215-0366(24)00073-7
[23] Taipale H, Schneider-Thoma J, Pinzón-Espinosa J, et al. Representation and Outcomes of Individuals With Schizophrenia Seen in Everyday Practice Who Are Ineligible for Randomized Clinical Trials. JAMA Psychiatry. 2022;79(3):210-218. doi:10.1001/jamapsychiatry.2021.3990
[24] 上記の研究はフィンランドとスウェーデンが舞台です。人種や生育歴、医療制度などの面においては結構異なるのでは?(だからといってこの研究結果が参考にならないわけではないです)
[25] Hernán MA, VanderWeele TJ. Compound treatments and transportability of causal inference. Epidemiology. 2011;22(3):368-377. doi:10.1097/EDE.0b013e3182109296
[26] KRSK_phs. データから得られた知見は実在集団に当てはまるか?外的妥当性について少し深く考えてみた. 2020. https://www.krsk-phs.com/entry/external_validity
[27] Guyatt G, Iorio A, De Beer H, et al. Core GRADE 5: rating certainty of evidence-assessing indirectness. BMJ. 2025;389:e083865. Published 2025 May 20. doi:10.1136/bmj-2024-083865
[28] 統合失調症の場合は、フィンランドとスウェーデンのレジストリーに登録された患者さんの2割程度しか典型的なRCTの適格基準を満たしていません。Taipale H, Schneider-Thoma J, Pinzón-Espinosa J, et al. Representation and Outcomes of Individuals With Schizophrenia Seen in Everyday Practice Who Are Ineligible for Randomized Clinical Trials. JAMA Psychiatry. 2022;79(3):210-218. doi:10.1001/jamapsychiatry.2021.3990
[29] RCTに組み入れられる患者さんが実臨床の患者さんと乖離している問題への対処法は、RCTを捨て去ることではなく、適格基準をより広くすることなのではないかと思います。SR&MAの読者としては、実臨床ではRCTよりも効果が小さい可能性を頭の片隅に置きながら解釈するというのが現実的な妥協策だと思います。
[30] 統合失調症に対する抗精神病薬の効果は白人と黒人では大きく変わらなそうです。Storosum BWC, Steinz C, Cohen SE, et al. Ethnic differences in response to atypical antipsychotics in patients with schizophrenia: individual patient data meta-analysis of randomised placebo-controlled registration trials submitted to the Dutch Medicines Evaluation Board. BJPsych Open. 2023;9(2):e45. Published 2023 Mar 2. doi:10.1192/bjo.2023.19
[31] 例えば、循環器系疾患の一次予防・二次予防の分野で、ベースラインリスクが異なる集団でも相対的な効果は大きく変わらないことが示されています。Torres Roldan VD, Ponce OJ, Urtecho M, et al. Understanding treatment-subgroup effect in primary and secondary prevention of cardiovascular disease: An exploration using meta-analyses of individual patient data. J Clin Epidemiol. 2021;139:160-166. doi:10.1016/j.jclinepi.2021.08.006
[32] Guyatt G, Iorio A, De Beer H, et al. Core GRADE 5: rating certainty of evidence-assessing indirectness. BMJ. 2025;389:e083865. Published 2025 May 20. doi:10.1136/bmj-2024-083865
[33] Schandelmaier S, Briel M, Varadhan R, et al. Development of the Instrument to assess the Credibility of Effect Modification Analyses (ICEMAN) in randomized controlled trials and meta-analyses. CMAJ. 2020;192(32):E901-E906. doi:10.1503/cmaj.200077
[34] P(集団)に関する因子以外にも、介入のバリエーションや臨床環境なども効果修飾因子として働きえます。
[35] Noma H, Furukawa TA, Maruo K, et al. Exploratory analyses of effect modifiers in the antidepressant treatment of major depression: Individual-participant data meta-analysis of 2803 participants in seven placebo-controlled randomized trials. J Affect Disord. 2019;250:419-424. doi:10.1016/j.jad.2019.03.031
[36] Brand BA, Haveman YRA, de Beer F, de Boer JN, Dazzan P, Sommer IEC. Antipsychotic medication for women with schizophrenia spectrum disorders. Psychol Med. 2022;52(4):649-663. doi:10.1017/S0033291721004591
[37] Furukawa TA, Levine SZ, Tanaka S, et al. Initial severity of schizophrenia and efficacy of antipsychotics: participant-level meta-analysis of 6 placebo-controlled studies. JAMA Psychiatry. 2015;72(1):14-21. doi:10.1001/jamapsychiatry.2014.2127
[38] Furukawa TA, Maruo K, Noma H, et al. Initial severity of major depression and efficacy of new generation antidepressants: individual participant data meta-analysis. Acta Psychiatr Scand. 2018;137(6):450-458. doi:10.1111/acps.12886
[39] Taipale H, Schneider-Thoma J, Pinzón-Espinosa J, et al. Representation and Outcomes of Individuals With Schizophrenia Seen in Everyday Practice Who Are Ineligible for Randomized Clinical Trials. JAMA Psychiatry. 2022;79(3):210-218. doi:10.1001/jamapsychiatry.2021.3990
[40] Efthimiou O, Taipale H, Radua J, et al. Efficacy and effectiveness of antipsychotics in schizophrenia: network meta-analyses combining evidence from randomised controlled trials and real-world data. Lancet Psychiatry. 2024;11(2):102-111. doi:10.1016/S2215-0366(23)00366-8
[41] 因果推論の識別3条件のConsistencyに対応します。
[42] Crippa A, Discacciati A, Bottai M, Spiegelman D, Orsini N. One-stage dose-response meta-analysis for aggregated data. Stat Methods Med Res. 2019;28(5):1579-1596. doi:10.1177/0962280218773122
[43] Furukawa TA, Cipriani A, Cowen PJ, Leucht S, Egger M, Salanti G. Optimal dose of selective serotonin reuptake inhibitors, venlafaxine, and mirtazapine in major depression: a systematic review and dose-response meta-analysis. Lancet Psychiatry. 2019;6(7):601-609. doi:10.1016/S2215-0366(19)30217-2
[44] Leucht S, Crippa A, Siafis S, Patel MX, Orsini N, Davis JM. Dose-Response Meta-Analysis of Antipsychotic Drugs for Acute Schizophrenia. Am J Psychiatry. 2020;177(4):342-353. doi:10.1176/appi.ajp.2019.19010034
[45] Furukawa Y, Sakata M, Yamamoto R, et al. Components and Delivery Formats of Cognitive Behavioral Therapy for Chronic Insomnia in Adults: A Systematic Review and Component Network Meta-Analysis. JAMA Psychiatry. 2024;81(4):357-365. doi:10.1001/jamapsychiatry.2023.5060
[46] 何%の変化で改善と見做しても、RRやORなどの相対的な指標は概ね一定です. Furukawa TA, Akechi T, Wagenpfeil S, Leucht S. Relative indices of treatment effect may be constant across different definitions of response in schizophrenia trials. Schizophr Res. 2011;126(1-3):212-219. doi:10.1016/j.schres.2010.10.016
[47] Heimke F, Furukawa Y, Siafis S, et al. Understanding effect size: an international online survey among psychiatrists, psychologists, physicians from other medical specialities, dentists and other health professionals. BMJ Ment Health. 2024;27(1):e300978. Published 2024 Feb 21. doi:10.1136/bmjment-2023-300978
[48] Zhao Y, Slate EH, Xu C, Chu H, Lin L. Empirical comparisons of heterogeneity magnitudes of the risk difference, relative risk, and odds ratio. Syst Rev. 2022;11(1):26. Published 2022 Feb 12. doi:10.1186/s13643-022-01895-7
[49] Doi SA, Furuya-Kanamori L, Xu C, et al. The Odds Ratio is “portable” across baseline risk but not the Relative Risk: Time to do away with the log link in binomial regression. J Clin Epidemiol. 2022;142:288-293. doi:10.1016/j.jclinepi.2021.08.003
[50] Xiao M, Chu H, Cole SR, et al. Controversy and Debate : Questionable utility of the relative risk in clinical research: Paper 4 :Odds Ratios are far from “portable” – A call to use realistic models for effect variation in meta-analysis. J Clin Epidemiol. 2022;142:294-304. doi:10.1016/j.jclinepi.2021.08.002
[51] Heimke F, Furukawa Y, Siafis S, et al. Understanding effect size: an international online survey among psychiatrists, psychologists, physicians from other medical specialities, dentists and other health professionals. BMJ Ment Health. 2024;27(1):e300978. Published 2024 Feb 21. doi:10.1136/bmjment-2023-300978
[52] 例えば、RR = 2はCER≦0.5であれば適応できますが、例えばCER = 0.6だとEER = 1.2(100人中120人)という意味のわからない数字になってしまいます。統計処理をする時にはRRもORもlogをとって計算をするのですが、ORであればどのような値をとっても処理ができるのに対して、RRだとCER, EERが0以上1以下になるようにするために制約がかかります。他にも、イベントを入れ替えてもORであれば結果は対称性があるのに対して、RRでは対称性がありません。
[53] Minimally Clinically Important Difference (MCID), Minimally Important Change (MIC)ともいう。
[54] GRADEの解説でも群間差とMIDを比較すると説明されていますが、不適切です。 Guyatt G, Zeng L, Brignardello-Petersen R, et al. Core GRADE 2: choosing the target of certainty rating and assessing imprecision. BMJ. 2025;389:e081904. Published 2025 Apr 29. doi:10.1136/bmj-2024-081904
[55] Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.
[56] Leucht S, Hierl S, Kissling W, Dold M, Davis JM. Putting the efficacy of psychiatric and general medicine medication into perspective: review of meta-analyses. Br J Psychiatry. 2012;200(2):97-106. doi:10.1192/bjp.bp.111.096594
[57] Chinn S. A simple method for converting an odds ratio to effect size for use in meta-analysis. Stat Med. 2000;19(22):3127-3131. doi:10.1002/1097-0258(20001130)19:22<3127::aid-sim784>3.0.co;2-m
[58] Cipriani A, Furukawa TA, Salanti G, et al. Comparative efficacy and acceptability of 21 antidepressant drugs for the acute treatment of adults with major depressive disorder: a systematic review and network meta-analysis. Lancet. 2018;391(10128):1357-1366. doi:10.1016/S0140-6736(17)32802-7
[59] Leucht S, Siafis S, Engel RR, et al. How Efficacious Are Antipsychotic Drugs for Schizophrenia? An Interpretation Based on 13 Effect Size Indices. Schizophr Bull. 2022;48(1):27-36. doi:10.1093/schbul/sbab094
[60] 頻度主義における信頼区間の定義です。ベイズ主義で信頼区間に対応するものは信用区間(Credible Interval, CrI)と呼ばれ、「事後分布に基づき、母数が95%の確率でこの区間にある」ことを意味します。ただし、非情報的な事前分布を用いてある程度の規模のデータセットを分析すると頻度主義もベイズ主義も結果はほぼ一致し、CIとCrIもほぼ一致します。本記事内では原則的に頻度主義を採用しています。
[61]異質性の指標としてI2が有名ですが、臨床的意義が分かりづらいために予測区間を使ったほうが良いと言われています。予測区間が報告されていないものも多いですが、今後増えていくことが期待されます. IntHout J, Ioannidis JP, Rovers MM, Goeman JJ. Plea for routinely presenting prediction intervals in meta-analysis. BMJ Open. 2016;6(7):e010247. Published 2016 Jul 12. doi:10.1136/bmjopen-2015-010247
[62]異質性があることを想定した指標です。異質性がないことを前提とする固定効果モデルでは予測区間は存在しません。
[63] Salanti G, Nikolakopoulou A, Efthimiou O, Mavridis D, Egger M, White IR. Introducing the Treatment Hierarchy Question in Network Meta-Analysis. Am J Epidemiol. 2022;191(5):930-938. doi:10.1093/aje/kwab278
[64] Baldwin D, Woods R, Lawson R, Taylor D. Efficacy of drug treatments for generalised anxiety disorder: systematic review and meta-analysis. BMJ. 2011;342:d1199. Published 2011 Mar 11. doi:10.1136/bmj.d1199
[65] はじめの打席でヒットを打った選手がその後打席に立たなければ打率100%です。イチローの最高年間打率38%を超えますが、規定打席数(チーム試合数に約3をかけた値)に達していないため打率ランキングの対象外になります。
[66] Brignardello-Petersen R, Florez ID, Izcovich A, et al. GRADE approach to drawing conclusions from a network meta-analysis using a minimally contextualised framework. BMJ. 2020;371:m3900. Published 2020 Nov 11. doi:10.1136/bmj.m3900
[67] タイトルにあるように、GRADEチームが提唱しています。統計学的に強いCINeMAチームはランキング指標の開発や改善に取り組んでおり、カテゴリー分けにはやや否定的ですが、SR&MAの読者としてはランキング指標を自分で計算するのは非現実的です。カテゴリー分けには他にも下記のような手法があります。Brignardello-Petersen R, Izcovich A, Rochwerg B, et al. GRADE approach to drawing conclusions from a network meta-analysis using a partially contextualised framework. BMJ. 2020;371:m3907. Published 2020 Nov 10. doi:10.1136/bmj.m3907
[68] GRADEではCertainty(以前はQuality of evidence)、CINeMAではConfidenceと呼ばれます。
[69] Guyatt G, Agoritsas T, Brignardello-Petersen R, et al. Core GRADE 1: overview of the Core GRADE approach. BMJ. 2025;389:e081903. Published 2025 Apr 22. doi:10.1136/bmj-2024-081903
[70] ガイドライン向けの枠組みでもありますが、ここではSR&MA向けのもののみを取り上げます。
[71] ネットワークメタアナリシス向けのGRADEもありますが、CINeMA(Confidence In Network Meta-Analysis)がよく用いられます。用量反応メタアナリシスや要素ネットワークメタアナリシス向けのGRADEは2025年現在ありませんが、GRADEに準じて評価をしていることが望ましいでしょう。
[72] Guyatt G, Wang Y, Eachempati P, et al. Core GRADE 4: rating certainty of evidence-risk of bias, publication bias, and reasons for rating up certainty. BMJ. 2025;389:e083864. Published 2025 May 13. doi:10.1136/bmj-2024-083864
[73] 正確には、一次研究の質そのものではなく、SR&MAに用いられる数字についてのバイアスリスクの評価です。例えば、一次研究の主要評価項目で差がなかったのに副次的な評価項目での差が強調されていた場合、一次研究としては問題がありますが、SR&MAに採用する数字としては問題がない、ということがありえます。
[74] Sterne JAC, Savović J, Page MJ, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ. 2019;366:l4898. Published 2019 Aug 28. doi:10.1136/bmj.l4898
[75]評価方法を詳しく解説したサイトがこちらです。シグナリングクエスチョンと言われる評価項目と、その結果に応じたフローチャートが具体例とともに載っています。自分でSR&MAをする時には必読です。SR&MAの読者としてはどういう項目を評価しているのかを知っておけば十分だと思います。 https://www.riskofbias.info/welcome/rob-2-0-tool/current-version-of-rob-2
[76] Guyatt G, Wang Y, Eachempati P, et al. Core GRADE 4: rating certainty of evidence-risk of bias, publication bias, and reasons for rating up certainty. BMJ. 2025;389:e083864. Published 2025 May 13. doi:10.1136/bmj-2024-083864
[77] 私たちの研究グループでは、RoB2 Domain 1がハイリスクなものに関してはSR&MAから除外しています。
[78] 非常に分かりづらい項目という批判がある項目です。ただ単に割り付けられた治療が継続できなかった人の割合を評価していると思われるケースも多々あります。SR&MAの読者としては深入り無用です。
[79] RCTではこのような事例は幸いみたことがないですが、検査に関する研究だと陽性と出したい群だけ執拗に再検査を繰り返すというものもあります。
[80] Moustgaard H, Clayton GL, Jones HE, et al. Impact of blinding on estimated treatment effects in randomised clinical trials: meta-epidemiological study. BMJ. 2020;368:l6802. Published 2020 Jan 21. doi:10.1136/bmj.l6802
[81] Cuijpers P, Li J, Hofmann SG, Andersson G. Self-reported versus clinician-rated symptoms of depression as outcome measures in psychotherapy research on depression: a meta-analysis. Clin Psychol Rev. 2010;30(6):768-778. doi:10.1016/j.cpr.2010.06.001
[82] Guyatt G, Zeng L, Brignardello-Petersen R, et al. Core GRADE 2: choosing the target of certainty rating and assessing imprecision. BMJ. 2025;389:e081904. Published 2025 Apr 29. doi:10.1136/bmj-2024-081904
[83] Guyatt G, Iorio A, De Beer H, et al. Core GRADE 5: rating certainty of evidence-assessing indirectness. BMJ. 2025;389:e083865. Published 2025 May 20. doi:10.1136/bmj-2024-083865
[84] Guyatt G, Schandelmaier S, Brignardello-Petersen R, et al. Core GRADE 3: rating certainty of evidence-assessing inconsistency. BMJ. 2025;389:e081905. Published 2025 May 6. doi:10.1136/bmj-2024-081905
[85] Guyatt G, Wang Y, Eachempati P, et al. Core GRADE 4: rating certainty of evidence-risk of bias, publication bias, and reasons for rating up certainty. BMJ. 2025;389:e083864. Published 2025 May 13. doi:10.1136/bmj-2024-083864
[86] Nikolakopoulou A, Higgins JPT, Papakonstantinou T, et al. CINeMA: An approach for assessing confidence in the results of a network meta-analysis. PLoS Med. 2020;17(4):e1003082. Published 2020 Apr 3. doi:10.1371/journal.pmed.1003082
[87] GRADE-NMAというものもありますが、CINeMAの方が普及しています。GRADEは方法論学者寄りでCINeMAは統計学者寄りな構成で作成されており、内容にもそれが反映されています。バチバチやっていますね。。。Izcovich A, Chu DK, Mustafa RA, Guyatt G, Brignardello-Petersen R. A guide and pragmatic considerations for applying GRADE to network meta-analysis. BMJ. 2023;381:e074495. Published 2023 Jun 27. doi:10.1136/bmj-2022-074495
[88] Risk of biasはWithin-study bias、Publication biasはReporting bias、InconsistencyはHeterogeneityという表現になっています。
[89] Crippa A, Discacciati A, Bottai M, Spiegelman D, Orsini N. One-stage dose-response meta-analysis for aggregated data. Stat Methods Med Res. 2019;28(5):1579-1596. doi:10.1177/0962280218773122
[90] Salanti G, Peter N, Tonia T, et al. The Impact of the COVID-19 Pandemic and Associated Control Measures on the Mental Health of the General Population : A Systematic Review and Dose-Response Meta-analysis. Ann Intern Med. 2022;175(11):1560-1571. doi:10.7326/M22-1507
[91] 市中肺炎の至適抗菌薬治療期間を調べた用量反応メタアナリシスでは重症度で分けて感度分析を行いました。Furukawa Y, Luo Y, Funada S, et al. Optimal duration of antibiotic treatment for community-acquired pneumonia in adults: a systematic review and duration-effect meta-analysis. BMJ Open. 2023;13(3):e061023. Published 2023 Mar 22. doi:10.1136/bmjopen-2022-061023
[92] Reference追記予定
[93] Guyatt G, Zeng L, Brignardello-Petersen R, et al. Core GRADE 2: choosing the target of certainty rating and assessing imprecision. BMJ. 2025;389:e081904. Published 2025 Apr 29. doi:10.1136/bmj-2024-081904
[94] 私たちの論文より。最近は研究数や患者数を入れるように気をつけています。なお、ネットワークメタアナリシスの結果の図をforest plotと呼ぶことがありますが、ネットワークメタアナリシスの著名な統計学者であるGeorgia SalantiやOrestis Efthimiouからこれはforest plot(木[=一次研究]と森[=全体像]の両方を可視化する図)ではないと注意されました。以降forest plotと呼ばないようにしています。(Rの{netmeta}パッケージでの関数はforest()ですが)Furukawa Y, Sakata M, Yamamoto R, et al. Components and Delivery Formats of Cognitive Behavioral Therapy for Chronic Insomnia in Adults: A Systematic Review and Component Network Meta-Analysis. JAMA Psychiatry. 2024;81(4):357-365. doi:10.1001/jamapsychiatry.2023.5060
[95] Salanti G. Indirect and mixed-treatment comparison, network, or multiple-treatments meta-analysis: many names, many benefits, many concerns for the next generation evidence synthesis tool. Res Synth Methods. 2012;3(2):80-97. doi:10.1002/jrsm.1037
[96] 効果をどの指標で表現するかにも左右されます。RRやORで表現する場合と、RDと表現する場合でも異なりますが、基本的にはRRやORなどの相対的な指標で見ます。
[97] 効果修飾因子のバラツキが存在しない = 全てのRCTで効果が一定である、と仮定する固定効果モデルでは異質性は考えません。効果修飾因子のバラツキが存在しないと考えられる状況はほとんどないため、ほとんどの場合で固定効果モデルよりもランダム効果モデルのほうが適切とされます。レア・イベントでは固定効果モデルを使う方がよいとされますが、これはレア・イベントでは異質性が存在しないからではなく、レア・イベントでは統計的な検出力が弱く、異質性まで推定するのが困難なためです。
[98] Cipriani A, Higgins JP, Geddes JR, Salanti G. Conceptual and technical challenges in network meta-analysis. Ann Intern Med. 2013;159(2):130-137. doi:10.7326/0003-4819-159-2-201307160-00008
[99][99] Hernán MA, Robins JM. Using Big Data to Emulate a Target Trial When a Randomized Trial Is Not Available. Am J Epidemiol. 2016;183(8):758-764. doi:10.1093/aje/kwv254
[100] Noetel M, Sanders T, Gallardo-Gómez D, et al. Effect of exercise for depression: systematic review and network meta-analysis of randomised controlled trials. BMJ. 2024;384:e075847. Published 2024 Feb 14. doi:10.1136/bmj-2023-075847
[101] ときどき、比較ごとではなく介入群ごとの効果修飾因子の分布をBox plotで確認しているものがあります。何もしないよりはマシかと思いますが、本来は介入群ごとではなく、比較ごとに確認すべきです。
[102] 必ずしも一対一対応はしません。推移性の仮定が妥当でも一定の確率でIncoherenceが起きます。推移性の仮定が妥当でなくても、打ち消し合ってIncoherenceが観測されないこともありえます。
[103] ネットワーク全体で見るグローバルアプローチと、ネットワークの一部を見るローカルアプローチがあり、両方を組み合わせるのがスタンダードです。グローバルアプローチ、ローカルアプローチそれぞれ複数の検定方法があります。読者としては細かいところまで深入りしなくてよいです。
[104]不眠症に対する初期治療を検討した私たちのNMAでは、直接比較と間接比較の結果にやや不一致がみられましたが、間接比較の信頼区間がとても広く、最終結果に大きく影響しなかったため、大きく問題なしと判断しました。 Furukawa Y, Sakata M, Furukawa TA, Efthimiou O, Perlis M. Initial treatment choices for long-term remission of chronic insomnia disorder in adults: a systematic review and network meta-analysis. Psychiatry Clin Neurosci. 2024;78(11):646-653. doi:10.1111/pcn.13730
[105]名前はともかくとして、SR&MAそのものの質と、SR&MAの結果の質を分けて考えることは大事です。似た概念に色々微妙に違う名前をつけるのはいい加減にしてほしいところではあります。Murad MH, Montori VM, Ioannidis JP, et al. How to read a systematic review and meta-analysis and apply the results to patient care: users’ guides to the medical literature. JAMA. 2014;312(2):171-179. doi:10.1001/jama.2014.5559
[106] この記事の中でもトップジャーナルに掲載された問題のあるSR&MAを複数取り上げました。Cochrane reviewでも、検索式にアウトカムを入れないという初歩的なことができていないものが10%あることが指摘されています。Tsujimoto Y, Tsutsumi Y, Kataoka Y, Banno M, Furukawa TA. Around ten percent of most recent Cochrane reviews included outcomes in their literature search strategy and were associated with potentially exaggerated results: A research-on-research study. J Clin Epidemiol. 2022;141:74-81. doi:10.1016/j.jclinepi.2021.08.030
[107] Whiting P, Savović J, Higgins JP, et al. ROBIS: A new tool to assess risk of bias in systematic reviews was developed. J Clin Epidemiol. 2016;69:225-234. doi:10.1016/j.jclinepi.2015.06.005
[108] 日本語解説論文. 原著: Shea BJ, Reeves BC, Wells G, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both. BMJ. 2017;358:j4008. Published 2017 Sep 21. doi:10.1136/bmj.j4008
[109] PROSPEROなどに事前登録されていてもプロトコルの詳細が不明であることもあります。しかし、事前登録もされていないのは問題です。
[110] コクランレビューでさえ不適切な検索式が用いられていることがあります。トップジャーナルからの査読依頼で回ってくる論文でも、検索式が不適切なことは珍しくありません。Tsujimoto Y, Tsutsumi Y, Kataoka Y, Banno M, Furukawa TA. Around ten percent of most recent Cochrane reviews included outcomes in their literature search strategy and were associated with potentially exaggerated results: A research-on-research study. J Clin Epidemiol. 2022;141:74-81. doi:10.1016/j.jclinepi.2021.08.030
[111] Lunny C, Higgins JPT, White IR, et al. Risk of Bias in Network Meta-Analysis (RoB NMA) tool. BMJ. 2025;388:e079839. Published 2025 Mar 18. doi:10.1136/bmj-2024-079839
[112] 統合失調症のサブグループ(小児、初発、陰性症状主体、治療抵抗性、物質使用障害、高齢者)ごとの治療効果の差は明らかではなく、サブグループを対象としたエビデンスが十分にない場合は統合失調症全体を対象としたエビデンスを援用してよいと考えられます. Leucht S, Chaimani A, Krause M, et al. The response of subgroups of patients with schizophrenia to different antipsychotic drugs: a systematic review and meta-analysis. Lancet Psychiatry. 2022;9(11):884-893. doi:10.1016/S2215-0366(22)00304-2

名古屋市立大学医学部卒業後、南生協病院での初期研修を経て、東京大学医学部附属病院精神神経科、東京武蔵野病院で専攻研修。日本専門医機構認定精神科専門医、精神保健指定医。臨床と並行してメタアナリシスを中心とした臨床研究を主導。筆頭著者として、JAMA Psychiatry, British Journal of Psychiatry, Schizophrenia Bulletin, Psychiatry and Clinical Neuroscienceなどのトップジャーナルに論文を発表。不眠の認知行動療法 (CBT-I) などの心理療法や、精神科疾患の薬物療法について、臨床で抱いた疑問に取り組んでいる。メディア報道・講演など。
免責事項:当ウェブサイトは所属団体の意見を代表するものではありません。管理人は、細心の注意を払って当ウェブサイトに情報を作成していますが、情報の正確性および完全性を保証するものではありません。当ウェブサイトの情報もしくはリンク先の情報を利用したことで直接・間接的に生じた損失に関し、管理人は一切責任を負いません。