-
Notifications
You must be signed in to change notification settings - Fork 6
/
01-intro.Rmd
129 lines (71 loc) · 8.3 KB
/
01-intro.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
aiueo morning
# 前提 {#intro}
## 統計学の中での位置づけ {#ichizuke}
ロジスティック回帰は、統計手法の一つです。統計検定では2級から扱われています。医療介護福祉系では、非常によく使われています。
統計学的には、多変量解析のうち重回帰分析の応用として説明されています。
さらに、機械学習の手法ともみなされていて、他の機械学習と比較しても予測精度が良く、また計算処理が早いと言う利点があります。しかしながら、解説は意外と少なく、一冊で網羅されている書籍は日本語ではなく、英語でも不十分な点が残ります。
ロジスティック回帰は、さまざまな分野で使われますが、とくに医学や疫学で多く用いられます。@tajeu2012misuse は、*International Journal of Obesity* と *Obesity* という二つのジャーナルに掲載された 855 件の論文を調査したところ、62 件 (7.3% of 855) がロジスティック回帰を使用していました。
## リスク比とオッズ比 {#rr-or}
統計学的には重回帰分析の応用と述べましたが、医療介護福祉では、オッズ比の多変量への拡張と捉えるほうが分かりやすいと思います。
そのため、リスク比 (Risk Ratio または Relative Risk, RR)\index{りすくひ@リスク比} とオッズ比 (Odds Ratio, OR)\index{おっずひ@オッズ比} を復習しましょう。
幸いなことに、医師国家試験の過去問に良い題材があります。
:::: {.blackbox data-latex=""}
::: {.center data-latex=""}
医師国家試験 114F-75
:::
調査開始時に肺がんに罹患していなかった10万人をその時点の喫煙状況で2つのグループに分けた。調査開始後5年間の肺癌罹患の有無を調べた結果を以下に示す。
喫煙による肺癌罹患のリスクを求めよ。
| 調査開始時点の喫煙状況 | 調査開始時点の人数 | 調査期間中に肺癌に罹患した人数 |
| -- | --: | --: |
| 喫煙者 | 40,000 | 408 |
| 非喫煙者 | 60,000 | 72 |
| 計 | 100,000 | 480 |
::::
喫煙者の肺癌リスクは、408/40,000 (= 0.0102) で、非喫煙者の肺癌リスクは、72/60,000 (0.0012) です。リスク比は、
RR = (408/40,000)/(72/60,000) = 8.5
となります。
これは、「喫煙者は非喫煙者よりも8.5倍肺癌になりやすい」と解釈することができます。
ちなみに、この場合のオッズ比は、
OR = (408/(40000-408))/(72/(60000-72)) = 8.577288
となります。
このように、OR は、RR と近いけれども、少し異なる数値になる性質があります。
翌年には、オッズ比の問題が出題されました。
:::: {.blackbox data-latex=""}
::: {.center data-latex=""}
医師国家試験 116F-74
:::
ある疾患Aの予防因子を調査した症例対照研究のデータを表に示す。予防因子の暴露レベルは3段階に分類されている。表中の数値は人数を示す。
疾患Aに対する、「暴露なし」を基準とした時の「高暴露あり」のオッズ比を計算せよ。
| | 症例 疾患Aあり | 対照 疾患Aなし |
| -- | --: | --: |
| 暴露なし | 50 | 50 |
| 低暴露あり | 40 | 70 |
| 高暴露あり | 30 | 80 |
::::
OR = (30/50) / (80/50) = 0.375
症例対照研究とは、まず最初に患者群があります。患者群と比較できるよう、年齢や性別などを調整して対照群を募集します。上記の例では、対照群の合計は 50+70+80 = 200人で症例よりわずかに多いですが、もっと多くすることも可能ですが、そのサイズによって検出力が変わります。
症例対照研究の場合、症例群と対照群は全く別々に集められているので、両者を足し算することはできません。リスク比の計算には、両群の合計が必要なので、リスク比は計算できないことになります。
このため、リスク比と近い値であるオッズ比を代わりに計算するのです。
研究では、オッズ比をこのように計算することは実際にはあまりありません。@tajeu2012misuse によると、オッズ比を報告していた 62 件の研究は、すべてロジスティック回帰を使用していました。
ここでは「リスク比を直接は計算できない」としています。ただし、オッズ比からリスク比を計算することも不可能ではありません [@grant2014converting]。オッズ比からリスク比を計算するための R パッケージもあります [@wang2013converting]。ロジスティック回帰でリスク比を報告している論文はかなり稀ですが、@gale2018social などがあります。
## 指数と対数 {#expo-log}
ロジスティック回帰の計算には、指数・対数関数の計算が出てきます。これは、高校の数学IIで学ぶ内容になります。
筆者は以前、「中学数学で機械学習を理解する」という本を読んだことがありますが、その中にもロジスティック回帰の部分ではしっかりと指数・対数が出てきました。
実は、ロジスティック回帰分析を行うと、「オッズ比の対数」が算出されます。これをオッズ比に変換するには指数関数を使いますが、通常は統計ソフトが自動的に行ってくれます。
しかし、ごくまれに、論文でも「オッズ比に変換」される前の「オッズ比の対数」が掲載されていることもあります。
「オッズ比」は、1の時、両群に差はありません。1より大きいと参照群よりもイベントが発生しやすく、1より小さいと発生しにくくなります。
「オッズ比の対数」は、0の時、両群に差はありません。0より大きい(プラス)と参照群よりもイベントが発生しやすく、0より小さい(マイナス)と発生しにくくなります。
## 変数
ロジスティック回帰を行う際は、多くの変数 (variable) が登場します。また、変数の名称も様々です。
まずは、ちょっとだけ難しいロジスティック回帰の数式を紹介します。
$y = \beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} + ...$
* 目的変数 (objective variable) と説明変数 (explanatory variables): 目的変数は、式の左辺にある変数 $y$ です。説明変数は、$x_1$ と $x_2$ です。説明変数から目的となる変数を予測します。
* 従属変数 (dependent variable) と独立変数 (independent variables): $x_1$ と $x_2$ は、独立していなければなりません。一方、$y$ の方は、独立変数に従属しています。
$y$ の方は、このほか、応答変数 (response variable)、反応変数 (response variable) 等とも呼ばれます。$x$ の方は、予測変数 (predictor variables) と呼ばれることもあります。
また、これとは別に、以下のような用語も出てきます。
* カテゴリ変数、名義尺度: 数値ではない属性値を指します。例えば、「宮城県、京都府、熊本県」など。
* 2値変数、バイナリ変数: カテゴリ変数のうち、値が2つしかないものを指します。例えば、「生と死」「フレイルの有無」などがあります。
## サンプル数とサンプルサイズ
これはロジスティック回帰に限ったことではありませんが、統計について解説しているサイトや、出版された書籍であっても、「サンプル数」と「サンプルサイズ」を間違って述べていることが非常に多いです。\index{さんぷるすう@サンプル数}\index{さんぷるさいず@サンプルサイズ}
ある研究が、A群は10人、B群20人の参加者がいたとします。この場合、「サンプル数」は群の数、つまり 2 です。A群のサンプルサイズは 10、B群のサンプルサイズは 20 となります。
なお、英語の医療福祉系論文では、サンプルサイズはそのまま sample size または患者数 (the number of patients) や参加者数 (the number of participants) ということが多く、誤解していることはありません。