- R2(R-squared),在线性模型和方差分析中的常用精度度量之一
- 显示数据与回归模型的拟合程度
校正R2: 是R2是一种形式,针对模型中的项数进行了调整
用来衡量统计学上的距离,然比比较两个结果的不同程度.
均方误差, 误差的平方累积/n
SSE =MSE * n ,误差的平方累积
广泛使用的回归指标,它衡量的是预测值与真实值的差距
- 根据用户的行为,来得出结论
- 找出数据库中一组数据对象的共同特点并按照分类模式将其分为不同的类
- 目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
数据的关联性 ,如不同性别喜欢什么
将相似的对象聚合在一起。
这种分析方法的目的,分析数据间的差异和相似性。
按照一定规则把“脏数据”洗掉
基于对业务的理解,将各种数据进行整合和关联,并最终使得这些数据可用性,可读性增强。
让使用方能快速的获取到自己关心的有价值的信息并且及时的作出响应。
为什么要建模?
- 查询使用性能提升
- 用户效率提高,改善用户体验
- 数据质量提升
- 进行全面的业务梳理,改进业务流程
- 建立全方位的数据视角,消灭数据差异
建模方法:
- 多元回归建模
- k-means 聚类算法
- 时间序列模型
- 等
将数据从来源端经过抽取(extract)、转换(transform)、加载(load)到目标端的过程。
数据库的二维表
信息没有一个预定义好的数据模型或者没有以一个预先定义的方式来组织。
文本、音视频,图片等
连续型数据是指可以取到某个区间内的任意值的数据,通常以实数表示。比如说,每个人的 100 米成绩,我们如果真的深究起来,几乎每个人的成绩都不会相同,因为无论如何,两个人的成绩之间可以存在无数个中间值。与之类似的还有人的身高、体重等等。
离散型数据则相反,离散型数据则是指只能取到有限个数或者是可数个数的数据,通常以整数表示。比如说每个班级人数、某咖啡店日销量多少杯,这些都属于离散型数据。
离散化,就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。
数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。通俗来说就是将那些数据进行分区,每个区域给予新的定义和值。
对于某科成绩,我们将 90 以上的分数定为优秀,70 到 90 定为良好,其余定为差,这就是离散化。
- 提高数据处理的效率和精度。
对于一些算法,如朴素贝叶斯、聚类、决策树等,这些算法对数据的要求就是离散型数据。离散化的数据可以提高算法的效率和精度,有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。例如对于决策树算法,离散化的数据可以提高树的构建速度和准确性。
- 离散化的特征更易理解,方便后续处理。
我们大部分人正常大概在 2000 到 8000 之间,而像马云这样的极少数人有着以千万、亿做单位的收入。这样的分布是极其不均匀的,我们就不再以收入值作为特征,而将其分为多个群体:高收入、中等收入、低收入,这样对后续处理也更加方便。
类别数据是一种只有标签值而没有数值的变量。它的值通常属于一个大小固定且有限的集合。比如说:
- 笔记本电脑品牌(变量):戴尔、联想、惠普、华硕(标签值);
- 宠物(变量):猫、狗、鸟(标签值);
- 名次(变量):冠军、亚军、季军(标签值)。
这样的数据在我们日常生活中并不少见,但是问题来了,很多机器学习算法要求的输入输出都是数值。这也是它们高效率带来的要求。但你看上面这些数据哪个是数值啊,全都是汉字词语的类别数据。
我们能一下想到的方法就是挨个标数字,当然这本来就是一种方法。但是这样的方法会让数据产生次序关系,你不得不承认,即使开始我们并没有认为数字 2 代表的标签值比数字 1 代表的标签值大,但事实上 2 就是比 1 大,平白无故产生了原本没有的关系后就有可能导致最终的结果不佳甚至出错。
那为了应对这种情况,one-hot 编码就由此诞生了。
电脑品牌 数值
戴尔 [1,0,0,0]
惠普 [0,1,0,0]
联想 [0,0,1,0]
华硕 [0,0,0,1]
当需要表现的数据过多时,一个数据就会显得冗长,有 100 条数据需要转化,那每个数据就得 99 个 0 和一个 1。所以,one-hot 编码不适合大量数据。
- 获取数据
- 数据预处理
- 缺失值、重复值、异常值、无效值处理
- 数据量化处理(如one-hot编码)
- 模型建立
- 选择自变量与因变量
- 建立多元回归模型
- 模型评估
- 是否预测正确数值
- 是否拟合了足够的信息
- 可以可视化数据,探究数据特征
在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析