diff --git a/docs/02-Overview-of-Supervised-Learning/2.2-Variable-Types-and-Terminology.md b/docs/02-Overview-of-Supervised-Learning/2.2-Variable-Types-and-Terminology.md index 0e9c7d6e71..2fe052401c 100644 --- a/docs/02-Overview-of-Supervised-Learning/2.2-Variable-Types-and-Terminology.md +++ b/docs/02-Overview-of-Supervised-Learning/2.2-Variable-Types-and-Terminology.md @@ -21,7 +21,7 @@ 我们将经常把输入变量用符号 $X$ 来表示.如果 $X$ 是一个向量,则它的组成部分可以用下标 $X_j$ 来取出.定量的输出变量用 $Y$ 来表示,对于定性的输出变量采用 $G$ 来表示(group 的意思).当指一般的变量,我们使用大写字母 $X,Y,G$ 来表示,对于观测值我们用小写字母来表示;因此 $X$ 的第 $i$ 个观测值记作 $x_i$ (其中,$x_i$ 要么是标量要么是向量)矩阵经常用粗体的大写字母来表示;举个例子,$N$ 个 $p$ 维输入向量 $x_i,i=1,\cdots,N$ 可以表示成 $N\times p$ 的矩阵 $\mathbf{X}$ .一般地,向量不是粗体,除非它们有 $N$ 个组成成分;这个约定区分了包含变量 $X_j$ 的所有观测值的 $N$ 维向量 $\mathbf{x}_j$ 和第 $i$ 个观测值的 $p$ 维向量 $x_i$ .因为所有的向量都假定为列向量, $\mathbf{X}$ 的第 $i$ 行是 $x_i$ 的转置 $x_i^T$ . -现在我们可以不严谨地把学习叙述成如下:给定输入向量 $X$,对输出 $Y$ 做出一个很好的估计,记为 $\hat{Y}$ .如果 $Y$ 取值为 $\mathbf{R}$,则 $\hat{Y}$ 取值也是 $\mathbf{R}$ ;同样地,对于类别型输出,$\hat{G}$ 取值为对应 $G$ 取值的集合 $\cal{G}$. +现在我们可以不严谨地把学习叙述成如下:给定输入向量 $X$,对输出 $Y$ 做出一个很好的估计,记为 $\hat{Y}$ .如果 $Y$ 取值为 $\IR$,则 $\hat{Y}$ 取值也是 $\IR$ ;同样地,对于类别型输出,$\hat{G}$ 取值为对应 $G$ 取值的集合 $\cal{G}$. 对于只有两种类别的 $G$,一种方式是把二进制编码记为 $Y$,然后把它看成是定量的输出变量.预测值 $\hat{Y}$ 一般落在 $[0,1]$ 之间,而且我们可以根据 $\hat{y} > 0.5$ 来赋值给 $\hat{G}$ .这种方式可以一般化为有 $K$ 个水平的定性的输出变量.