From ff9548fd269b38b8da0f0f1d0b02278d65daee8c Mon Sep 17 00:00:00 2001 From: Yalei Meng Date: Mon, 11 Mar 2019 09:09:49 +0800 Subject: [PATCH] =?UTF-8?q?=E6=94=B9=E6=AD=A3=E9=94=99=E5=88=AB=E5=AD=97?= =?UTF-8?q?=E3=80=81=E6=A0=87=E7=82=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- chapter2/2.2-deep-learning-basic-mathematics.ipynb | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/chapter2/2.2-deep-learning-basic-mathematics.ipynb b/chapter2/2.2-deep-learning-basic-mathematics.ipynb index 9e2f13e8..889bf902 100644 --- a/chapter2/2.2-deep-learning-basic-mathematics.ipynb +++ b/chapter2/2.2-deep-learning-basic-mathematics.ipynb @@ -223,7 +223,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "优化器我们选择最长见的优化方法 SGD,就是每一次迭代计算mini-batch的梯度,然后对参数进行更新,学习率0.01 ,优化器本章后面也会进行介绍" + "优化器我们选择最长见的优化方法 SGD,就是每一次迭代计算mini-batch的梯度,然后对参数进行更新,学习率0.01。优化器在本章后面也会进行介绍" ] }, { @@ -330,7 +330,7 @@ " optim.zero_grad()\n", " # 计算损失\n", " loss = criterion(outputs, labels)\n", - " # 反响传播\n", + " # 反向传播\n", " loss.backward()\n", " # 使用优化器默认方行优化\n", " optim.step()\n", @@ -409,7 +409,7 @@ "\n", "这里有一个重点:因为PyTorch是使用mini-batch来进行计算的,所以损失函数的计算出来的结果已经对mini-batch取了平均\n", "\n", - "常见(PyTorch内置)的损失函数一下几个:\n", + "常见(PyTorch内置)的损失函数有以下几个:\n", "### nn.L1Loss:\n", "输入x和目标y之间差的绝对值,要求 x 和 y 的维度要一样(可以是向量或者矩阵),得到的 loss 维度也是对应一样的\n", "\n", @@ -478,7 +478,7 @@ "metadata": {}, "source": [ "## 2.2.4 梯度下降\n", - "在介绍损失函数的时候我们已经说了,梯度下降是一个使损失函数越来越小的优化算法,在无求解机器学习算法的模型参数,即约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一所以梯度下降是我们目前所说的机器学习的核心,了解了它的含义,也就了解了机器学习算法的含义。\n" + "在介绍损失函数的时候我们已经说了,梯度下降是一个使损失函数越来越小的优化算法,在无求解机器学习算法的模型参数,即约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。所以梯度下降是我们目前所说的机器学习的核心,了解了它的含义,也就了解了机器学习算法的含义。\n" ] }, { @@ -500,7 +500,7 @@ "\n", "这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处(局部最优解)。\n", "\n", - "这个问题在以前的机器学习中可能会遇到,因为机器学习中的特征比较少,所以导致很可能陷入到一个局部最优解中出不来,但是到了深度学习,动辄百万甚至上亿的特征,出现这种情况的纪律几乎为0,所以我们可以不用考虑这个问题。" + "这个问题在以前的机器学习中可能会遇到,因为机器学习中的特征比较少,所以导致很可能陷入到一个局部最优解中出不来,但是到了深度学习,动辄百万甚至上亿的特征,出现这种情况的概率几乎为0,所以我们可以不用考虑这个问题。" ] }, { @@ -543,7 +543,7 @@ "metadata": {}, "outputs": [], "source": [ - "#lr参数为学习了率对于SGD来说一般选择0.1 0.01.0.001,如何设置会在后面实战的章节中详细说明\n", + "#lr参数为学习率,对于SGD来说一般选择0.1 0.01.0.001,如何设置会在后面实战的章节中详细说明\n", "##如果设置了momentum,就是带有动量的SGD,可以不设置\n", "optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)" ]