diff --git a/docs/02-Overview-of-Supervised-Learning/2.3-Two-Simple-Approaches-to-Prediction.md b/docs/02-Overview-of-Supervised-Learning/2.3-Two-Simple-Approaches-to-Prediction.md
index 7121fb8bab..8a0f64e6ab 100644
--- a/docs/02-Overview-of-Supervised-Learning/2.3-Two-Simple-Approaches-to-Prediction.md
+++ b/docs/02-Overview-of-Supervised-Learning/2.3-Two-Simple-Approaches-to-Prediction.md
@@ -104,13 +104,13 @@ $N_k(x)$ 是在训练样本中 $k$ 个离 $x$ 最近的点 $x_i$ 组成的邻域
 
 ![](../img/02/fig2.2.png)
 
-> 图 2.2 图 2.1 中一样的二维分类的例子．类别被二进制变量编码（蓝色为 $0$，橘黄色为 $1$），通过 $15$-最近邻平均拟合．因此预测的类别是选择 $15$-最近邻中占大部分的类别．
+> 图 2.2: 图 2.1 中一样的二维分类的例子．类别被二进制变量编码（蓝色为 $0$，橘黄色为 $1$），通过 $15$-最近邻平均拟合．因此预测的类别是选择 $15$-最近邻中占大部分的类别．
 
 图 2.3 显示了 $1$-最近邻的分类结果：$\hat{Y}$ 被赋了距离 $x$ 的最近点 $x_{\ell}$ 的值 $y_{\ell}$．这种情形下，区域的分类可以相对简单的计算出来，这对应训练数据的 **泰森多边形图 (Voronoi tessellation)**．每个点 $x_i$ 都有一个对应的区域，这些小区域形成了离某点最近的区域．对于小区域里面的每一个点，$\hat{G}(x)=g_i$．判别边界比之前更加不规则了．
 
 ![](../img/02/fig2.3.png)
 
-图 2.1 中一样的二维分类的例子．类别被二进制变量编码（蓝色为 $0$，橘黄色为 $1$），通过 $1$-最近邻分类预测．
+> 图 2.3: 图 2.1 中一样的二维分类的例子．类别被二进制变量编码（蓝色为 $0$，橘黄色为 $1$），通过 $1$-最近邻分类预测．
 
 对于关于定量输出变量 $Y$ 的回归问题，**k-最近邻平均 (k-nearest-neighbor averaging)** 方法的定义和 \eqref{2.8} 完全一样，尽管 $k=1$ 是不太可能的选择．