Improving some performance measure with experience computed from data.
机器从数据中总结经验。
- 事物存在某种潜在规律
- 人不能直接发现这种规律 (例如牛顿定律)
- 能获取大量数据
- 输入空间:$\mathcal{X}$
- 输出空间:$\mathcal{Y}$
- 假设空间( hypothesis space ):$\mathcal{H}$ , 包含所有可能的
$f :\mathcal{X} \mapsto \mathcal{Y}$ - 所有记录的集合:数据集,
$\mathcal{D}={\left(\mathbf {x_i},Y_i\right)|1\le i\le m}$ - 一条记录( instance, sample )
$\mathbf{x_i}$ - 数据的特征或者属性 feature, attribute :
$\mathbf{x_i} = {x_1, x_2, \cdots, x_n }$ - 训练集
- 测试集
-
预测值为离散值或连续值的问题为:
- 分类(classification)(上火问题,是否下雨)
- 回归(regression)$\mathcal{R}$
-
训练数据有标记信息的学习任务为:监督学习(supervised learning),分类和回归都属于监督学习。
-
训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
-
还有:batch learning, online learning, active learning, reinforcement Learning
简要解释计算学习理论:
Ein(h)表示在训练集样本中,h(x)不与f(x)不相等的概率。即模型假设对样本(已知)的错误率。
Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率。即模型假设对真实情况(未知)的错误率。
霍夫丁不等式: $$ P[|\nu-\mu|>\epsilon] \leq 2 e^{-2 \epsilon^{2} N} $$ PAC
- 数据清理和格式化
- 探索性数据分析
- 特征工程和特征选择
- 基于性能指标比较几种机器学习模型
- 对最佳模型执行超参数调整
- 在测试集上评估最佳模型
- 解释模型结果
- 得出结论
A. 判断今年是闰年还是平年
B. 判断银行能不能给某人开信用卡
C. 判断北京明天的天气
D. 估计北京西直门早高峰的人流量
E. 计算地球运行的轨道