-
Notifications
You must be signed in to change notification settings - Fork 6
/
02-overview.Rmd
85 lines (49 loc) · 6.71 KB
/
02-overview.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
# ロジスティック回帰とは {#overview}
本章では、以下のことを学びます。
1. どのような時にロジスティック回帰が使えるか
2. 応答変数とは何か
3. 説明変数とは何か
4. オッズ比をどのように解釈するか
5. フォレストプロットとは何か
1 フレイルになる、ならないという目的と関係がある因子(性別、運動習慣、社会参加、食事など)の複数の要因を同時に解析できるのが、ロジスティック回帰分析です。
2 この例として応答変数はフレイルになるかならないかです。
3 性別、運動習慣、社会参加、食事などの因子です。
## 独立して有意な変数の探索 {#finding-independent-significant-variables}
説明変数は、理想としては研究者が理論的に選択します。しかし、まだ探索段階であり、理論的に選ばれないような時もあります。
あるいは、予測因子の間に交絡があるかどうかを調べることが最大の関心の時もあります。
説明変数の数が多すぎると、真の関連性が薄まり、信頼区間が広く不正確な大きな標準誤差が生じたり、逆に誤った関連性が特定されることにつながります。
この場合のロジスティック回帰分析の流れは以下のようになります。
* 多くの説明変数を用意し、説明変数の間に相関関係があるものは、どれかひとつだけ選びます (多重共線性)。
* 単変量解析 (univariate logistic regression) を行う。単変量解析は、説明変数を一つだけにしたロジスティック回帰の場合もありますし、t 検定や $\chi^{2}$ などの場合もあります。
* 説明変数のうち、目的変数と相関関係がありそうなものだけ残します (通常、 p > 0.1)。
* 多重ロジスティック回帰を行い、調整済みオッズ比を求めます。
この方法は、まず多くの説明変数を用意し、数を減らしていくので、変数減少法 (Backward Elimination Method) と言います [@wang2007determination]。
このような選択法には、以下のものがあります。
* 変数減少法 (backward elimination)
* 変数増加法 (forward selection)
* 変数増減法 (stepwise with forward selection and/or backward elimination)
ややこしいことに、「ステップワイズ」と言う言葉は、3つ目だけをさして使う人もいれば、1つ目や2つ目にも使う人もいます。
数を減らす方法には、条件付き法、尤度比法、Wald 法などがあります。
変数選択法については、R の標準機能に関数があります [@zhang2016variable]。詳細は Chapter \@ref(predictables) で扱います。
さらには、ラッソ回帰 (Least Absolute Shrinkage and Selection Operator, LASSO) のような新たな手法もあります。LASSO を使った論文としては、糖尿病患者のフレイル予測をした論文があります [@bu2023development]。
### Joseph B (2014) JAMA
では、実際にロジスティック回帰を使った論文を読んでみましょう。
@joseph2014superiority は、米国医学会誌 *JAMA* に掲載された研究論文です。著者はアリゾナ大学病院の外科医らです。高齢者がケガ (外傷) を負うと、フレイルかどうかが年齢以上に合併症に影響を及ぼすかどうかを検証しました。
まず、主要アウトカム (目的変数) は「入院中の合併症」です。高齢者の場合、骨折等で入院、入院中に誤嚥性肺炎の発症といった合併症が多くあります。この調査では、心疾患 (cardiac)、肺炎 (pneumonia)、感染 (infection)、血液疾患 (hematologic)、腎臓疾患 (renal)、再手術を合併症としました。
この目的変数に対し、説明変数としてフレイルの指標である
Frailty Index (FI)、年齢、性別など多くの変数を挙げています。
FI は、フレイルの指標の一つです。フレイルの指標で最も有名なのは Fried による5項目の簡便なものですが、FI は、フレイルに関連しそうな 40 項目前後のチェックリストで構成されています。この研究では 50 項目を使用し、0.25 以上をフレイルと定義しました。
年齢については、数値として扱うのではなく、75-84歳と、85歳以上の二つのグループのカテゴリ変量としました。
主要アウトカムについては、Table 4 に結果があります。結果についての本文は以下のとおりです。
:::: {.blackbox data-latex=""}
On univariate analysis, an FI of 0.25 or higher was associated with the development of in-hospital complications (P = .01). Age (P = .02), systolic blood pressure (P = .04), heart rate (P = .11), and Injury Severity Score (P = .01) were also associated with the development of in-hospital complications. After adjusting for age, systolic blood pressure, heart rate, and Injury Severity Score in a multivariate regression model, an FI of 0.25 or higher was an independent predictor of the development of in-hospital complications (P = .001). Table 4 summarizes the results of the univariate and multivariate regression analyses for factors associated with in-hospital complications.
After stratifying patients into 3 groups based on age (65-74 years, 75-84 years, and ≥85 years), an FI of 0.25 or higher remained an independent predictor of the development of in-hospital complications in each group. Table 5 summarizes the results of the multivariate regression analysis after stratifying the study population by age.
::::
## リスクスコアの開発と検証
ロジスティック回帰を使った応用例としては、リスクスコアの開発があります。リスクスコアとは、将来的なある疾患へのかかりやすさを、現時点でのデータから予測する一つの数値です。
リスクスコアの式は、ロジスティック回帰の式に非常によく似ています。
* 疾患の有無が分かっているデータを用意し、モデル作成用と検証用に分ける
* ロジスティック回帰により説明変数の調整済みオッズ比を求める
* リスクスコアの式を決定する
* 検証用データに対し、リスクスコアの精度を検証する
精度の検証に用いるのは、感度と特異度からなる ROC 曲線を用いることが多いようです。フレイルのリスクスコアの論文も多数ありますが、ROC を使っているものも [@ng2014frailty; @sundermann2011comprehensive]、使っていないものもあります [@gilbert2018development]。