原文:
www.kdnuggets.com/2021/01/popular-machine-learning-interview-questions-part2.html
评论
作者 Mo Daoud,从事技术工作,AI 爱好者。
本文是我 流行的机器学习面试问题 的第二部分。
在这里,我展示了在面试中我通常看到的更多问题。我必须说明,这不是一份面试准备指南,也不是所有问题的完整列表。相反,你应该将这篇文章作为复习你机器学习知识的材料。我建议你在阅读答案之前先阅读问题,并尝试自己回答。这样,你可以验证你的知识,并发现技能上的差距。让我们开始吧。
图片由 Gabrielle Henderson 提供,来源于 Unsplash。
ANN 代表 人工神经网络,这是深度学习的基础。在 ANN 中,我们有层、神经元、激活函数、权重和反向传播。你应该对这些术语都很熟悉。如果不熟悉,可以阅读 神经元、激活函数、反向传播、时期、梯度下降:这些是什么?
我通常发现候选人在面试时通过绘图来说明他们的想法并确认他们的知识。绘制以下图表将帮助你进一步解释 ANN 以及它是如何学习的。
人工神经网络:学习步骤。图片作者。
CNN 是一个 卷积神经网络,主要应用于计算机视觉和视频分析。CNN 处理如何将图像输入到人工神经网络中,如何捕捉图像的重要特征并将其转换为可以输入神经网络的格式。
CNN 处理图像并经过以下步骤
1 - 卷积
图像被转换为 0 和 1,然后乘以特征检测器以生成特征图。此步骤的主要原因是为了减少输入图像的大小。可能会丢失一些信息,但图像的主要特征将被捕捉到。通常,图像会被多个特征检测器处理,生成多个特征图。这些特征图会经过一个函数,通常是 ReLU,以确保图像中的非线性。
2 - 池化
有几种池化操作,但最常见的是最大池化。它教会网络空间变异性。简单来说,就是即使图像被颠倒、倾斜,或从远处或近处拍摄,网络也能识别图像特征。这种操作的输出是一个池化特征图。
3 - 展平
这个操作的目的是能够将池化特征图输入到神经网络中。
下面的图示展示了整个卷积神经网络(CNN)操作。
卷积神经网络。图片由作者提供。
如你所见,CNN 的展平输出包含了图像特征,并且以可以输入到人工神经网络(ANN)的格式呈现。
RNN 是 递归神经网络,主要用于时间序列问题,如股票市场预测。它们以 LSTM(长短期记忆)而闻名。与人工神经网络(ANN)类似,RNN 也有输入层和输出层以及多个中间层的神经元,但主要区别在于 RNN 神经元具有某种短期记忆。这种短期记忆使得神经元能够记住之前在该神经元中的内容。这就是为什么 RNN 适用于时间序列问题和翻译的原因,因为网络需要了解之前翻译的词汇,以便生成连贯的句子,而不仅仅是逐词翻译。
这个问题是我最喜欢的问题之一,因为它展示了对神经网络主要概念的总体理解。
这是一个简单的问题,但许多人却答错了。主要是要知道人工智能是一个通用术语,然后给出一些例子。
人工智能 是让计算机在决策、文本处理、翻译等方面像人类一样行为的科学。人工智能是一个大的伞,机器学习和深度学习都在它之下。
每个机器学习算法都被认为是人工智能(AI),但不是所有的人工智能算法都被认为是机器学习。
AI、ML 和 DL 之间的关系。图片由作者提供。
机器学习:你选择模型进行训练,并且 手动 执行特征提取,以便模型进行学习。
深度学习:你设计神经网络的架构,特征从提供的标记训练数据中被 自动 提取。
机器学习与深度学习之间的区别。图片由作者提供。
因式分解机可以用于分类或回归,并且在处理大规模稀疏数据集时,比传统算法如线性回归更加高效。这种特性使得因式分解机在推荐系统中被广泛应用。因式分解机是监督学习算法,主要用于处理稀疏数据。然而,它们不进行降维。因式分解机的一个应用例子是广告点击预测和商品推荐。
使用不平衡数据集创建模型会导致结果不佳,尤其是对更多训练数据(在我们这个例子中是非欺诈性交易)有偏向。你绝不应使用不平衡数据集来创建模型。解决方案是尽量收集更多平衡的数据,如果不可能,则可以使用**SMOTE(合成少数类过采样)或随机过采样(ROS)**对数据进行过采样。
SMOTE 技术用于平衡数据集。图片来源:作者。
SMOTE技术会生成新的少数类观察值,在这个例子中是欺诈性观察值。这些合成观察值几乎与原始欺诈性观察值相同。该技术迅速有效,但其生成的合成观察值类型不如其他过采样技术创造的独特观察值有用。
在机器学习中,正则化是对参数进行约束、规整或使系数估计向零收缩的过程。换句话说,这种技术会抑制学习更复杂或更灵活的模型,从而避免过拟合的风险。正则化基本上是随着模型复杂性的增加而增加惩罚,这有助于避免过拟合。
L1 有效地去除不重要的特征,过于激进的去除可能导致欠拟合。L2 则对每个特征进行加权,而不是完全去除它们,这可能带来更好的准确性。简而言之,L1 去除特征,而 L2 则不去除,而是对其权重进行规整。
迁移学习允许你从现有的训练模型开始,通常是从像 GitHub 这样的来源获取现成的模型。你将现有的训练模型应用于你不同但紧密相关的观察数据。这节省了你部署和操作机器学习解决方案的时间,因为你是从一个预训练的模型开始的。
在迁移学习中,网络初始化为预训练的权重,仅将顶层全连接层初始化为随机权重。然后,整个网络会根据新数据进行微调。在这种模式下,即使数据集较小,也可以进行训练。这是因为网络已经过训练,因此可以在没有足够训练数据的情况下使用。
全学习 vs. 迁移学习。图像来源于作者。
LDA(潜在狄利克雷分配) 算法是一种无监督学习算法,尝试将一组观察结果描述为不同类别的混合。LDA 最常用于发现文档集中的用户指定数量的主题,即主题建模。
线性回归 用于预测连续变量,主要用于解决回归问题。线性回归通过寻找最佳拟合线来预测数值输出。
逻辑回归 用于预测分类值,主要用于分类问题。逻辑回归产生一个 S 曲线进行分类,输出是二元或类别值。
Bag-of-Words 是一种 NLP(自然语言处理)算法,它创建输入文档文本的标记,并输出文本的统计表示。这种统计表示,例如直方图,显示文档中每个词的计数。
高偏差模型是由于模型简单而产生的,通常在你看到以下情况时容易识别:
-
高训练误差
-
验证误差或测试误差与训练误差相同
要修复高偏差模型,你可以:
-
添加更多输入特征
-
通过引入多项式特征增加复杂性
-
减少正则化项
高方差模型是由于模型复杂而产生的,通常在你看到以下情况时容易识别:
-
低训练误差
-
高验证误差或高测试误差
要修复高方差模型,你可以:
-
获取更多训练数据
-
减少输入特征
-
增加正则化项
当我听到回归模型评估时,第一个想到的就是 RMSE(均方根误差),因为它是回归评估中最简单和最常见的指标。RMSE 可以轻松地告诉你模型是否过高估计或低估。
RMSE 是预测数值目标与真实数值答案之间的差距(即真实数值)。RMSE 值越小,模型的预测精度越好。如果模型的预测正确,其 RMSE 将为 0。
**ROC(接收操作特征)**曲线,或 ROC 曲线,是一种图形绘制,展示了二元分类系统在其区分阈值变化时的诊断能力。
ROC 曲线。来源。
该曲线绘制了两个参数:
-
真正率
-
假正率
ROC 曲线在不同分类阈值下绘制真正率与假正率。降低分类阈值将更多项分类为正,从而增加假正例和真正例。
**ROC 曲线下的面积(AUC)**衡量 ROC 曲线下方的整个二维面积。AUC 用于相互比较/评估机器学习分类模型,并测量整个 ROC 曲线下的二维面积。
AUC. 来源。
AUC 提供了所有可能分类阈值下的性能总衡量。一种解释 AUC 的方法是模型将随机正例的排名高于随机负例的概率。
祝你好运,无论你即将参加哪个面试。网上有大量的机器学习和人工智能信息,你可以从许多来源获取知识。我鼓励你利用免费资源、课程和类似的文章来深入了解机器学习。无论你从事哪个行业,机器学习和人工智能都会影响你的工作,因此请为自己装备所需的知识。
原文。经许可转载。
相关:
1. 谷歌网络安全证书 - 快速入门网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 方面